JP2023526441A - 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム - Google Patents

複合遺伝子バリアントの検出およびフェージングのための方法およびシステム Download PDF

Info

Publication number
JP2023526441A
JP2023526441A JP2022570551A JP2022570551A JP2023526441A JP 2023526441 A JP2023526441 A JP 2023526441A JP 2022570551 A JP2022570551 A JP 2022570551A JP 2022570551 A JP2022570551 A JP 2022570551A JP 2023526441 A JP2023526441 A JP 2023526441A
Authority
JP
Japan
Prior art keywords
sequence
variant
scaffold
wild
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022570551A
Other languages
English (en)
Inventor
チャンドン ゼン,
ナタリア ズィーン リーチ,
Original Assignee
ラボラトリー コーポレイション オブ アメリカ ホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ラボラトリー コーポレイション オブ アメリカ ホールディングス filed Critical ラボラトリー コーポレイション オブ アメリカ ホールディングス
Publication of JP2023526441A publication Critical patent/JP2023526441A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

複合遺伝子バリアントの決定のための方法、システム、およびコンピュータプログラム製品を開示する。開示の方法、システム、およびコンピュータプログラム製品は、複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場ヌクレオチド配列を得る工程;野生型配列を有する野生型足場ヌクレオチド配列を得る工程;試料由来の少なくとも1つの配列の前記変異足場および前記野生型足場に対するアラインメントを作成する工程;ならびに前記野生型足場に対してではなく、前記変異足場に対するアラインメントに基づいて、複合遺伝子バリアントに特徴的な変異を前記試料が含むことを決定する工程を含み得る。

Description

関連出願の相互参照
本出願は、発明の名称が「METHODS AND SYSTEMS FOR DETECTION AND PHASING OF COMPLEX GENETIC VARIANTS」である2020年5月19日出願の米国仮特許出願第63/026,948号に基づく利益および優先権を主張する。前述の出願の内容全体は、その全ての目的のためにその全体が本明細書中で参考として援用される。
分野
本開示は、複合遺伝子バリアントの検出およびフェージングのための方法およびシステムに関する。
背景
次世代配列決定(NGS)は、多数の標的配列のリードが得られる大量の並行した配列決定過程を指す。このテクノロジーは、患者試料中の多数の臨床的に関連した遺伝子領域を同時かつ迅速に査定することが可能であるので、遺伝子診断分野で広く使用されている。バリアントの同定は、一般に、任意の配列変動の存在を査定するために配列リードをゲノム基準に対してアラインメントすることによって行われ、バリアント検出におけるその分析感度は、リードマッピング精度に大きく依存する。短いリード(例えば、Illumina配列決定)を使用したNGSバリアント検出は、点変異、小さな挿入および欠失(インデル)では十分であるが、構造的バリアントおよび反復しているか高相同配列中に存在するバリアントの検出においては限界がある。最新のヒトゲノムビルド(高度に異なる領域のためにいくつかのオルタナティブアレルを含むGRCh37/HG19およびGRCh38/HG38)を用いたとしても、ほとんどのアライナーは、リファレンスとして使用される一次配列が1つに制限される。結果として、リファレンスと非常に異なる試料リードは、不正確にマッピングされるか、全くマッピングされない場合がある。このリファレンスの偏りは、バリアント検出の感度および特異性に影響を及ぼし、偽陽性および偽陰性となる。
バリアントフェージングを使用して、2つのバリアントが染色体の同一コピー内(シス)または複合ヘテロ接合体として2つの異なるコピー内(トランス)に存在するかどうかを同定する。フェージング情報は、特に常染色体劣性障害における臨床的帰結の予想に不可欠である。フェージングを統計的に推測するアプローチ(すなわち、集団または家系に基づく方法)には、試験のために大規模コホートまたは世代の異なる家族が必要であり、稀な変異またはde novo変異に適用不可能な場合がある。NGSの場合、リードに基づいたフェージングのためのアルゴリズムは、標的領域中に2またはそれを超えるヘテロ接合バリアントを有する重複リードをより大きなハプロタイプブロックにコンピュータによってアセンブルするために開発されている。ロングリードシーケンシングのためのNGSプラットフォームは、複数のバリアントを1つの配列リードに連結し、それにより、直接的なフェージング情報を提供することができる;しかしながら、コストが高く、低スループットであり、塩基あたりのエラー率が高いので、臨床遺伝子検査での使用が制限されている。連結リード配列決定は、低いエラー率で長いハプロタイをコンピュータによって構築およびフェージングすることができるが、小さな構造バリアントの検出における感度には限度がある場合があり、主にゲノムフェージングで使用されている。構造バリアントの場合、ゲノムリファレンスの偏りは、マッピングの失敗に起因して、密接に関連する対立遺伝子でさえもフェージングをさらに混乱させ得る。したがって、複合遺伝子バリアントの検出および特徴づけのための改良された方法およびシステムが必要である。
概要
次世代配列決定による遺伝子バリアントの検出およびフェージングのためのカスタム足場アプローチを使用する方法およびシステムを開示する。前述の方法およびシステムは、種々の方法で具体化され得る。
種々の実施形態では、試料中の複合遺伝子バリアントの存在または非存在を検出する方法であって、(a)複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場ヌクレオチド配列を得る工程;(b)野生型配列を有する野生型足場ヌクレオチド配列を得る工程;(c)試料由来の少なくとも1つの配列の変異足場および野生型足場に対するアラインメントを生成する工程;および(d)野生型足場に対してではなく、変異足場に対するアラインメントに基づいて、複合遺伝子バリアントに特徴的な変異を試料が含むことを決定する工程を含む、方法を開示する。
種々の実施形態では、試料中の複合遺伝子バリアントの存在または非存在を検出する方法であって、ゲノムの標的領域内に複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;アラインメントアルゴリズムを使用した計算装置によって、変異足場中の複合遺伝子バリアント配列を含むマッチング配列に、配列リードをマッピングする工程;アラインメントアルゴリズムを使用した計算装置によって、野生型足場中に野生型配列を含むマッチング配列に、配列リードをマッピングする工程;計算装置によって、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、カウントによって、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および野生型配列を含む配列にマッピングされた配列リードの定量を行う工程;計算装置によって、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、試料が変異を含むかどうかを決定する工程;および計算装置によって、試料が変異を含むかどうかの決定に基づいて、試料に複合遺伝子バリアントが存在するか存在しないという結果を出力する工程を含む、方法を開示する。
いくつかの実施形態では、変異足場は、複合バリアント配列、野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;さらなる人為的な遺伝的変動は、複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;変異足場中の複合遺伝子バリアント配列を含むマッチング配列に配列リードをマッピングする工程は、さらなる人為的な遺伝的変動に基づいて、配列リードと複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程は、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよびさらなる人為的な遺伝的変動をカウントすることを含む。
いくつかの実施形態では、方法は、複合遺伝子バリアントに特徴的な変異を有する配列リードのみが変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いてアラインメントアルゴリズムをパラメータ化する工程をさらに含む。
いくつかの実施形態では、方法は、計算装置によって、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、試料が複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;計算装置によって、試料が複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、試料に複合遺伝子バリアントが存在するという結果を出力する工程;および試料中の複合遺伝子バリアントの存在にしたがって、試料に関連する被験体を処置する工程をさらに含む。
いくつかの実施形態では、処置は、治療剤または規定食の変更である。
いくつかの実施形態では、治療剤はビタミンB6であり、あるいは、食事の変更は低メチオニン食である。
いくつかの実施形態では、複合バリアント配列は2つの変異を有する。
いくつかの実施形態では、方法は、変異足場中のマッチング配列への配列リードのマッピングに基づいて、2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および計算装置によって、試料が複合遺伝子バリアントに特徴的な変異を含むかどうか、および2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、試料に複合遺伝子バリアントが存在するか存在しないという結果を出力する工程をさらに含む。
いくつかの実施形態では、複合遺伝子バリアントは、シスタチオニンベータ-シンターゼ(CBS)遺伝子の標的領域に存在する。
いくつかの実施形態では、変異足場および野生型足場は、(i)シス位にc.833T>C変異を含む68bp挿入[844_845ins68]を有する配列、(ii)トランス位にc.833T>Cを含む68bp挿入[844_845ins68]を有する配列、(iii)c.833T>Cを含まない68bp挿入[844_845ins68]を有する配列、または(iv)68bp挿入[844_845ins68]を含まないc.833T>Cを有する配列を区別する。
方法、システム、およびコンピュータプログラム製品の種々の実施形態では、カスタム足場は、in silico足場である。
ハプロタイプ分離のためのかかるカスタム足場、および、必要に応じて、本明細書中に開示の方法にしたがってバリアントリードアウトとして役立つようにデザインされた塩基変化を含むシステムおよび/またはキットも本明細書中に開示する。例えば、1またはそれを超えるデータプロセッサ;および1またはそれを超えるデータプロセッサ上で実行されたときに、1またはそれを超えるデータプロセッサが、本明細書中に開示の方法工程のうちのいずれかを含む動作を実施する命令を含む非一時的なコンピュータ可読記憶媒体を含むシステムを開示する。1またはそれを超えるデータプロセッサが、本明細書中に開示の方法工程のうちのいずれかを含む動作を実施するように構成された命令を含む、非一時的な機械可読記憶媒体において明白に具体化されるコンピュータプログラム製品も開示する。
図1は、本開示の実施形態の複合バリアントの検出方法を示す。
図2aおよび図2bは、本開示の実施形態の21番染色体上のCBS c.833T>Cおよび複合バリアントc.[833T>C;844_845ins68]を示す。したがって、図2aは、野生型配列(図2a)(配列番号1)、同一DNA上に両方の変異を有するCBS c.[833T>C;844-845ins68]配列(配列番号2)、およびCS c832-833ins68(配列番号3)を示す。図2bは、21番染色体上の正常な対立遺伝子、CBS c.833T>C、および複合バリアントc.[833T>C;844_845ins68]を示す(図2b)。 図2aおよび図2bは、本開示の実施形態の21番染色体上のCBS c.833T>Cおよび複合バリアントc.[833T>C;844_845ins68]を示す。したがって、図2aは、野生型配列(図2a)(配列番号1)、同一DNA上に両方の変異を有するCBS c.[833T>C;844-845ins68]配列(配列番号2)、およびCS c832-833ins68(配列番号3)を示す。図2bは、21番染色体上の正常な対立遺伝子、CBS c.833T>C、および複合バリアントc.[833T>C;844_845ins68]を示す(図2b)。
図3は、本開示の実施形態のカスタム足場およびHG19リファレンスゲノムに対するシミュレートしたリードのアラインメントを示す。カスタム足場CBS_MU(左のパネル)およびCBS_WT(中央のパネル)およびHG19リファレンスゲノム(右のパネル)に対するリードアラインメントのシミュレーションを、(a)c.833T>C、(b)c.844_845ins68、(c)シス位でc.844_845ins68を有するc.833T>C(すなわち、c.[833T>C;844_845ins68])、および(d)トランス位で有するc.833T>C(c.[833T>C;844_845ins68])について示す。
図4は、本開示の実施形態のゲノムバリアントコーリングプラットフォームのブロック図を示す。
図5は、本開示の実施形態の複合遺伝子バリアントの同定およびフェージングのためのコンピュータ実装分析システムを示す。
図6は、本開示の実施形態のカスタム足場を使用した2つの1000Gトリオにおけるc.[833T>C;844_845ins68]の検出を示す。CEPH(a~c)およびYRIトリオ(d~f)についてのカスタム足場Ref:CBS_MU上のリードアラインメントを示す。
図7は、本開示の実施形態のトランスで複合バリアントc.[833T>C;844_845ins68]を含むc.833T>C単一ヌクレオチドバリアントの検出を示す。
図8は、本開示の実施形態のCBS_MU足場を介した臨床試料中の稀な68bp挿入の検出を示す。68bp挿入の稀な対立遺伝子がヘテロ接合性の試料(a)、および共にシス位にc.833T>Cを含む稀なおよび共通の68bp挿入対立遺伝子が複合ヘテロ接合体である試料(b)の代表例を示す。
詳細な説明
短いリードを使用して標的にされた構造バリアントの検出およびフェージングを可能にするために、バリアント特異的なカスタマイズされたリファレンス配列を、リードアラインメントの足場として利用する計算方法を開発した。このカスタマイズにより、異なるハプロタイプ由来のリードを対応するカスタム足場上に正確にマッピングすることが可能であり、それにより、遺伝子型決定が改良される。バリアントフェージングは、リードの効率的な選別を強化する足場配列中のマーカーの導入によってさらに容易にされ得る。これらの足場を、任意の標的領域のために構築し、大規模なアルゴリズムの開発や解析時間の増大を伴わずに、既存のバリアント分析ワークフローに組み込むことができる。
1つの実施形態では、カスタム足場アプローチは、標準的なリファレンスベースのアラインメントアプローチ(例えば、HG19、GRCh38)ではしばしば偽陽性または偽陰性に至る困難な領域中のNGSバリアントの検出に注目している。例えば、反復領域、相同領域、または偽遺伝子領域を有する遺伝子について、標準的なリファレンスゲノム上のリードアラインメントでは、不正確にマッピングされるか、全くマッピングされない場合があり、それにより、バリアント検出において偽陽性および偽陰性が生じる。本明細書中で開示される場合、カスタム足場を、各々の困難なバリアントのためにデザインし、ハプロタイプによる配列リードの適切な分離(「ハプロタイプ分離」)に合わせ、それにより、困難な標的バリアントの配列決定効率および検出感度、特異性およびフェージングを大きく改善することができる。より具体的には、配列決定システム(例えば、NGS)自体の機能性の特異的な改良、すなわち、配列決定システムによる配列リードの不適切な分離の軽減、ならびにバリアントの同定システムおよびフェージングシステムによるバリアントコーリングおよびフェージングにおける感度および特異性の改善を本明細書中に開示する。
ある特定の実施形態では、カスタマイズされた足場は、各々の困難なバリアントのために構築され得る。かかる足場は、バリアント含むリードをバリアントを含まないリードと分離して、検出の感度および特異性を改善し得る。目的のバリアントに加えて、これらの足場は、さらなるデザインパラメータも含み得る。例として、68bp挿入を含むシスタチオニンベータ-シンターゼ(CBS)複合体バリアントについて、68bp挿入の存在についての読み取りに役立てるために、塩基変化をカスタム足場(68bp挿入の内側)に導入し得る。本明細書中に詳述するように、足場中に塩基変化を有すると、遺伝子中で起こり得る68bp insと点変異(c.833T>C)との間のフェージングも可能である。このアプローチは、任意のバリアントに使用され得るが、バリアント配列の構造的性質に起因して検出および/またはフェージングが困難であり得る。例えば、本明細書中に開示の例に加えて、カスタム足場は、グルコシルセラミダーゼベータ(GBA)中の困難な55bp欠失の検出のために開発されており、得られた55bp欠失を有するリードは、優先的にGBAP1偽遺伝子領域に対してアラインメントされる。
複合遺伝子バリアントを検出およびフェージングする方法
複合遺伝子バリアントを検出およびフェージングするための技術を開示する。この技術は、様々な方法(例えば、方法、システム、非一時的なコンピュータ可読媒体の記憶コードまたは1またはそれを超えるプロセッサによって実行される命令)で具体化され得る。
1つの実施形態では、試料中の複合遺伝子バリアントの存在または非存在を検出する方法であって、(a)複合遺伝子バリアントに特徴的な変異を含む配列を含む少なくとも1つの変異足場ヌクレオチド配列を得る工程;(b)野生型配列を有する野生型足場ヌクレオチド配列を得る工程;(c)試料由来の少なくとも1つの配列の変異足場および野生型足場に対するアラインメントを生成する工程;および(d)野生型足場に対してではなく、変異足場に対するアラインメントに基づいて、複合遺伝子バリアントに特徴的な変異を試料が含むことを決定する工程を含む、方法を開示する。
例えば、図1に示すように、方法100は、複合バリアントの性質を決定する工程102を含み得る。本明細書中のCBSについて詳述した配列のデータベースで見出される目的の標的に関連することが知られている変異を分析することによってこれを行い得る。次に、方法は、複合遺伝子バリアント(CGV)に関連する少なくとも1つの態様(すなわち、変異)を組み込む変異足場配列を得る工程104を含み得る。例えば、変異足場は、欠失および/または挿入および/または点変異を組み込むように構築され得る。また、方法は、CGVに関連する他の変異を組み込むさらなる変異足場を得る工程105を含み得る。場合によっては、工程106で、変異足場は、足場に対してアラインメントされた配列が目的の変異を含むことを示すためのマーカーとして使用することができるさらなるバリアント配列を含むように構築され得る。方法は、定義された野生型配列を含む足場を得る工程107、および、必要に応じて、リファレンス配列を含む足場を得る工程108をさらに含み得る。
被験体がCGVを有するかどうかを決定するために、方法は、例えば、本明細書中に詳細に開示の配列決定のための方法、システム、およびコンピュータプログラム製品を使用して、被験体についてのCGVに関連する標的部位のDNA配列を決定する工程109を含み得る。あるいは、配列データは、本明細書中に開示の方法、システム、およびコンピュータプログラム製品を使用した特徴づけのためのデータベースから得てもよい。次いで、方法の工程110は、被験体の目的の標的の核酸配列の、個別の変異体、野生型、および必要に応じたリファレンス足場に対するアラインメントを生成し得る。1つの実施形態では、配列決定により、複数の配列が足場の各々にアラインメントされるように、目的の標的の複数の配列リードが生成される(例えば、NGS)。次いで、アラインメントは、工程112で分析されて、被験体がCGVに関連する変異を含むかどうかを決定し、必要に応じて、工程114で、CGVに関連する変異のフェージング(すなわち、変異が同一または異なる染色体コピー上に存在するかどうか)を決定し得る。方法は、結果を被験体または医療提供者に報告する工程116を含み得る。1つの実施形態では、方法工程のうちの少なくともいくつかは、計算システム(例えば、大規模並行型シーケンサーを含む計算システム)によって制御される。
ある特定の実施形態では、開示の方法は、複合バリアント配列が2つの変異を有すること、および/または2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)いずれに存在するのかを決定する工程を含み得る。変異足場および野生型足場に対する試料由来の配列のアラインメントにより、変異が試料においてヘテロ接合性またはホモ接合性のいずれであるかを決定することができる。方法は、任意の複合バリアントのために使用され得る。1つの実施形態では、複合遺伝子バリアントは、CBS遺伝子中に存在する。例えば、ある特定の実施形態では、足場は、(i)シス位にc.833T>C変異を含む68bp挿入[844_845ins68]を有する配列、(ii)トランス位にc.833T>Cを含む68bp挿入[844_845ins68]を有する配列、(iii)c.833T>Cを含まない68bp挿入[844_845ins68]を有する配列、または(iv)68bp挿入[844_845ins68]を含まないc.833T>Cを有する配列を区別する。あるいは、足場は、CBS遺伝子または類似の様式での任意の他の遺伝子中の他の変異を区別するために使用され得る。
図2aおよび2bは、CBS遺伝子中の複合バリアントを示す。具体的には、図2aおよび図2bは、21番染色体上のCBS遺伝子についての野生型配列(図2a)ならびにc.833T>Cバリアントおよび複合バリアントc.[833T>C;844_845ins68](図2b)を示す。CBS遺伝子は、酵素シスタチオニンベータ-シンターゼをコードし、その欠損によりホモシスチン尿症を発症する。図2aに示すように、シス位にc.833T>Cを含む68bp挿入の配列構造は、ClinVarおよびgnomAD(補強証拠を含むゲノム配列決定データおよびヒトにおける変動と表現型との間の関係についての報告に無料でアクセスできる公開データベース)におけるc.832_833ins68と等価である。両方のパネルにおいて、コードエクソン8に影を付けており、c.833野生型塩基はハイライトし、野生型配列と68bp挿入配列との間で異なる塩基の位置を四角で囲っている。イントロン配列の重複箇所に下線を引いている。下のパネルでは、68bp挿入配列をボックス中に示し、シス位のc.833Cバリアントの相対的位置をハイライトしている。イントロン配列を小文字で示す。図2bは、エクソンを示すバリアント領域の略図を示し、正常な[T]または病原性[C]のバリアントとしてのc.833塩基の位置を示した。また、c.844塩基とc.845塩基との間の68bp挿入を網掛けで示す。点線は、オルタナティブスプライシングによって切り出された領域を示す。
したがって、図2aおよび2bに示すように、c.844_845ins68バリアントは、CBS遺伝子のコードエクソン8の5’末端付近で生じ、少数の相違塩基を除いて、イントロン7の最後の52塩基およびエクソン8の最初の16塩基が重複している(GRCh37/HG19 chr21:44483173-44483240)。挿入された配列は、野生型塩基のコピーc.833Tおよびイントロン7-エクソン8ジャンクションの3’スプライス部位を含み、後者は、転写物においてオルタナティブスプライシングを引き起こす。結果として、挿入物中のc.833T野生型塩基が保持される一方で、c.833T>Cバリアントは、シス位に挿入物が存在する場合、切り出される(図2b)。したがって、シス位に68bp挿入を含むc.833T>Cバリアント(NM_000071.2:c.844_845ins68)が生じるとき、これは、良性の複合バリアントNM_000071.2:c.[833T>C;844_845ins68]を形成する。c.833T>Cの臨床的解釈がc.844_845ins68の存在およびこれを用いたフェージングに依存するので、遺伝子試験において両方のバリアントを正確に遺伝子型同定し、フェージングすることが不可欠である。
種々の実施形態では、足場は、ハイスループット配列決定データをアラインメントするために使用されるin silico足場である。例えば、図3は、本開示の実施形態のCBS複合遺伝子バリアントについての、カスタム足場およびHG19リファレンスゲノムに対するシミュレートしたリードのアラインメントを示す。カスタム変異足場(CBS_MU)(左のパネル)およびカスタム野生型足場(CBS_WT)(中央のパネル)およびHG19リファレンスゲノム(HG19)(右のパネル)に対するシミュレートしたリードアラインメントを、(a)点変異(c.833T>C)のみを有する配列、(b)68塩基対(bp)挿入(c.844_845ins68)のみを有する配列、(c)シス位に68bp挿入(c.844_845ins68)を含む点変異(c.833T>C)を含む配列(すなわち、c.[833T>C;844_845ins68])、および(d)トランス位に68bp挿入を含む点変異(c.833T>C)を含む配列(すなわち、c.[833T>C;844_845ins68])について示す。リードアラインメントを、塩基毎のカバレッジトラック上にDNA配列を示すIntegrative Genomics Viewer(IGV;Broad Institute,Cambridge,MA)を使用して可視化した。1つの実施形態では、b~d中のカスタム足場アラインメントについて、68bp挿入を含むいくつかのリードはまた、配列相同性が高いのでRef:CBS_WTに対してアラインメントされる;しかしながら、ソフトクリップされた末端は、一般に、バリアントコーラーによって無視される。1つの実施形態では、Ref:HG19の場合、68bp挿入を含む全てのリードの強制アラインメントおよびソフトクリッピングは、挿入についてのバリアントのコールに影響を及ぼすので、共存する場合、c.833T>Cバリアントは複合バリアントの検出を妨げる。矢印は、足場およびHG19リファレンス上のバリアントコーリングのために使用される有益な塩基を指し示す。68bp挿入配列とHG19リファレンス配列との間で異なる塩基のうちの2つを、小さな矢印を用いて示す。挿入配列の最末端の第3の相違塩基は、コーラーによるソフトクリッピングに起因してアラインメント中に認められない。
したがって、CBS_WT足場は、正常な遺伝子型(野生型)を示し、GRCh37/HG19に基づいてchr21:44480001-44485000に5,000bpのCBS遺伝子領域を含む。CBS_MU足場は、挿入遺伝子型(変異型)であり、CBS_WT足場と同一のゲノム領域+共通の68bp挿入配列を含む。アラインメントアルゴリズムにおけるミスマッチコストとギャップペナルティコストの相違に起因して、挿入を有するリードのみがCBS_MU足場に対してアラインメントされるであろう。c.833T>Cバリアントも68bp挿入と同一のペアードエンドリード中に生じる場合、CBS_MU足場中の3252位に塩基の変化として検出されるであろう(すなわち、CBS_MU:3252A>G;図3c、Ref:CBS_MU)。他方では、c.833T>Cバリアントのみを有するリードは、CBS_WT足場に対してアラインメントされ、この病原性バリアントを、CBS_WT:3184A>Gとして同定することができる(図3a、Ref:CBS_WT)。
ある特定の実施形態では、変異足場は、複合バリアント配列、野生型配列のいずれにも見出されないさらなる遺伝的変動を含み、ここで、本明細書中に開示のように、さらなる遺伝的変動は、複合遺伝子バリアントを含む特異的変異の存在および/またはフェージングのためのマーカーとして役立つ。例えば、CBS_MU足場は、足場の3210位にさらなるG>C塩基変化を有する(CBS_MU:3210と命名)。CBS_MU足場中で「G」から「C」に塩基が変更することにより、68bp挿入を有するリードを容易に同定するための所定のバリアントリードのためのマーカーとして役立つ予想ミスマッチが作出される(図2b、Ref:CBS_MU)。
したがって、1つの実施形態では、c.833T>Cバリアントのみ含むリードは、CBS_WT足場のみに対してアラインメントされる(図3a、Ref:CBS_MUと比較したRef:CBS_WT)。c.844_845ins68バリアントを含むリードは、CBS_MU足場に対して優先的にアラインメントされ(図3b~d、Ref:CBS_MU)、CBS_MU:3210でG>Cリードアウトによって同定されるのに対して、CBS_MU:3252A>Gでの塩基変化の同時出現(100%VAFでもある)は、68bp挿入がシス位にc.833T>Cを含むことを示す(図2c、Ref:CBS_MU)。挿入配列とリファレンス配列との間の相同性が高いので、c.844_845ins68配列を含むリードの画分も、非アラインメントリード末端のソフトクリッピングに起因して、CBS_WT足場にアラインメントされ得る。
1つの実施形態では、また、変異足場を使用して、c.844_845ins68の2つのコピー(シス位にc.833T>Cを含むものおよび反対の対立遺伝子上に含むもの)を用いて試料の遺伝子型を決定する。この場合、CBS_MU:3210G>CおよびCBS_MU:3252A>Gでの塩基変化がそれぞれ100%および50%であることにより、複合ヘテロ接合性と同定することができる。あるいは、c.833T>Cがc.[833T>C;844_845ins68]に対してトランス位に生じる場合、CBS_MU足場およびCBS_WT足場の両方に対するリードアラインメントには、検出のためにはそれぞれ約60%、100%、および100%のCBS_WT:3184A>G、CBS_MU:3210G>C、およびCBS_MU:3252A>Gを使用することが必要であると考えられ、ここで、100%から約60%へのCBS_WT:3184A>GのVAFの減少は、両方の対立遺伝子上にc.833T>Cが存在することに起因すると予想される。
様々なハイスループット配列決定プラットフォームを使用して、アラインメントのために使用された配列データがアラインメントされ得る。1つの実施形態では、配列決定は、次世代配列決定(NGS)であり、大規模並行型シーケンサーを用いて実施される。
複合遺伝子バリアントの検出およびフェージングのためのシステム
本明細書中に記載の1またはそれを超える実施形態を、プログラムのモジュール、エンジン、またはコンポーネントを使用して実装することができる。プログラムのモジュール、エンジン、またはコンポーネントは、1またはそれを超える提示したタスクまたは機能を実行することができるプログラム、サブルーチン、プログラムの一部、またはソフトウェアコンポーネントまたはハードウェアコンポーネントを含むことができる。本明細書中で使用される場合、モジュールまたはコンポーネントは、他のモジュールまたはコンポーネントと独立してハードウェアコンポーネント上に存在することができる。あるいは、モジュールまたはコンポーネントは、他のモジュール、プログラム、または機械の共用の要素またはプロセスであり得る。図4は、開示の実施形態の配列の獲得ならびに複合遺伝子バリアントの同定およびフレージングのためのゲノムバリアントコーリングプラットフォーム400のブロック図を示し、種々の実施形態の分析システム405の種々のサブシステムの実装のために使用され得る1またはそれを超えるプロセッサによって実行可能なモジュール、エンジン、またはコンポーネント(例えば、プログラム、コード、または命令)を図示する。モジュール、エンジン、またはコンポーネントは、非一時的なコンピュータ媒体に記憶され得る。必要に応じて、モジュール、エンジン、またはコンポーネントのうちの1つまたは複数は、システムメモリ(例えば、RAM)にロードされ、分析システム405の1またはそれを超えるプロセッサによって実行され得る。図4に指名した例では、足場構築サブシステム410、配列決定サブシステム415、ならびにバリアント同定およびフレージングサブシステム420を実装しているモジュール、エンジン、またはコンポーネントを示す。
また、図4は、標本、化学物質、薬物、または他の材料を試験および分析する研究所(標本および核酸の処理のための試薬および特殊な実験施設を必要とする)を含むウェットラボサブシステム425を図示する。ゲノムバリアントコーリングプラットフォーム400は、ウェットラボサブシステム425内のブロック435で核酸または核酸混合物430を得る工程を含む。核酸430は、任意のタイプの好適な生物標本または生物試料437(例えば、試験試料)から単離され得る。試料または試験試料は、被験体またはその一部(例えば、ヒト被験体、妊婦、癌患者、胎児、または腫瘍など)から単離または入手した任意の標本であり得る。標本の非限定的な例としては、被験体由来の流動物または組織(血液または血液製剤(例えば、血清または血漿など)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液(例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、管洗浄液、耳洗浄液、関節鏡視下洗浄液)、生検試料(例えば、着床前胚由来;癌生検)、頭蓋穿刺試料、細胞(血球、胎盤細胞、胚または胎児の細胞、胎児有核細胞または胎児細胞残遺物、正常細胞、異常細胞(例えば、癌細胞))、またはその一部(例えば、ミトコンドリア、核、または抽出物など)が挙げられるが、これらに限定されない)が挙げられる。ある特定の例では、核酸430は、1またはそれを超えるバリアントを含む。本明細書中で使用される場合、用語「バリアント」または「配列バリアント」は、リファレンス配列および/または足場配列と異なる核酸配列を指す。典型的な核酸配列バリアントとしては、制限されないが、一塩基多型(SNP)、短い欠失および挿入の多型(Indel)、コピー数変動(CNV)、マイクロサテライトマーカー、または短い縦列反復、および構造変動が挙げられる。
ウェットラボサブシステム425内のブロック440で、核酸430が前処置されるか、前処理される。前処置または前処理の方法としては、濾過、沈殿、富化、希釈、蒸発、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、妨害成分の不活化、試薬の添加、溶解、およびライブラリの調製などが挙げられ得るが、これらに限定されない。
いくつかの例では、核酸430は、切断または剪断によって断片化される。例えば、核酸分子(核酸テンプレート遺伝子分子またはその増幅産物など)は、2つの(またはそれを超える)より小さな核酸分子に切断され得る。剪断または切断は、配列特異的、塩基特異的、または非特異的であり得、種々の方法、試薬、または条件のうちのいずれか(例えば、化学的、酵素的、物理的な剪断(例えば、物理的断片化)が挙げられる)によって行うことができる。剪断または切断された核酸を、好適な方法によって生成することができ、方法の非限定的な例としては、物理的方法(例えば、剪断、例えば、超音波処理、フレンチプレス、加熱、UV照射など)、酵素的プロセス(例えば、酵素的切断剤(例えば、好適なヌクレアーゼ、好適な制限酵素、好適なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、および加熱など、またはその組み合わせ)など、またはその組み合わせが挙げられる。
いくつかの例では、核酸430は増幅される。例えば、試料中の核酸(例えば、標的核酸)は、標的核酸と同一または実質的に同一のヌクレオチド配列またはその一部を有するアンプリコン核酸を線形的または指数関数的に生成するプロセスに供し得る。ある特定の実施形態では、核酸430の増幅は、ポリメラーゼ連鎖反応(PCR)を含む。
いくつかの例では、核酸ライブラリは、核酸430に基づいて生成される。核酸ライブラリは、特定のプロセス(その非限定的な例としては、固相(例えば、固体支持体、フローセル、ビーズ)上の固定化、富化、増幅、クローニング、検出、および/または核酸配列決定が挙げられる)のために調製、アセンブリ、および/または修飾される複数のポリヌクレオチド分子(例えば、核酸の試料)を含み得る。核酸ライブラリは、標的化または非標的化調製プロセスによって調製され得る。
足場構築サブシステム410内のブロック445では、1またはそれを超える足場447は、困難な標的バリアントについての検出およびフェージングの効率、感度、および特異性の改善を容易にするために構築される。本明細書中で使用される場合、「足場」は、in silicoで構築された配列アセンブリであり、これに対して新規のリードがアラインメントされ得る。配列アセンブリは、配向および順序は正しいが、必ずしも1つの連続した配列ストレッチに連結されていない一連のコンティグを含み得る。コンティグ(「隣接している」に由来する)は、合わせてヌクレオチド配列のコンセンサス領域を示す一連の重複ヌクレオチドセグメントのセットである。種々の例では、1またはそれを超える足場447は、染色体またはゲノムの標的領域(CBS遺伝子領域など)のためにin silicoで構築される。標的領域は、複合遺伝子バリアントを有することが公知の領域として選択され得る。本明細書中で使用されるように、「複合遺伝子バリアント」は、構造バリアント(すなわち、サイズが少なくとも50個のヌクレオチドのゲノム中の変異)または反復配列もしくは高相同配列中に存在するバリアントである。
いくつかの例では、変異足場ヌクレオチド配列は、複合遺伝子バリアントに特徴的な変異を含む配列を含む標的領域のために構築され、野生型足場ヌクレオチド配列は、野生型配列を有する標的領域のために構築される。変異足場および野生型足場は、複合遺伝子バリアントを有する配列リードと複合遺伝子バリアントを持たない配列リードとを識別可能である。野生型足場は、標的領域について正常な遺伝子型の塩基対を含むように構築される。ある特定の例では、野生型足場は、標的配列を含むゲノムのためのリファレンスゲノムに基づいて構築される。変異足場は、変異を含む標的領域について異常な遺伝子の塩基対(すなわち、野生型配列および複合遺伝子バリアント配列の塩基対)を含むように構築される。いくつかの例では、変異足場は、複合遺伝子バリアント配列、野生型配列のいずれにも見出されないさらなる遺伝的変動を含むようにさらに構築される。さらなる遺伝的変動は、複合遺伝子バリアントを含む特異的変異の存在および/またはフェージングのためのマーカーとして役立ち得る。例えば、hg19リファレンス領域chr21:44,480,001-44,485,000と同一の第1の足場CBS_WTが構築され得る。また、第2の足場CBS_MUは、同一の領域から構築され得るが、共通の68bp挿入+挿入を検出するためのマーカーとして役立つ68bp挿入内に導入されたG>C塩基変化を含む。
配列決定サブシステム415内のブロック450では、核酸430(必要に応じて、前処理または前処置される)が配列決定される。核酸配列決定は、一般に、配列リード群を産生する。本明細書中で使用される場合、「リード(reads)」(例えば、「リード(a read)」、「配列リード」)は、本明細書中に記載されているか、当該分野で公知の任意の配列決定プロセスによって産生された短いヌクレオチド配列である。リードは、核酸断片の一方の末端から生成することができ(「シングルエンドリード」)、時折、核酸断片の両端から生成される(例えば、ペアエンドリード、ダブルエンドリード)。配列リードの長さは、しばしば、特定の配列決定テクノロジーに関連する。ハイスループット法は、例えば、数十から数百塩基対(bp)までサイズが様々であり得る配列リードを提供する。ナノポア配列決定は、例えば、数十から数百、数千の塩基対までサイズが様々であり得る配列リードを提供することができる。いくつかの実施形態では、配列リードは、約15bp~約900bp長の平均、中央値、平均、または絶対長である。ある特定の実施形態では、配列リードは、約1000bpまたはそれを超える平均、中央値、平均、または絶対長である。任意の好適な核酸配列決定法を使用することができ、その非限定的な例としては、大量並行様式で(例えば、大規模並行型シーケンサーを用いる)DNAを配列決定することができる次世代(例えば、第2世代および第3世代)配列決定技術が挙げられる。いくつかの実施形態では、次世代配列決定法は、目的の特異的な染色体、遺伝子、または領域が配列決定される標的化アプローチを利用する。例えば、試料由来の核酸は、標的領域(例えば、CBS遺伝子の標的領域またはCBS遺伝子自体)について配列決定され得る。ある特定の実施形態では、試料中のほとんどまたは全ての核酸が無作為に配列決定、増幅、および/または捕捉される非標的化アプローチが使用される。
配列決定サブシステム415内のブロック455では、配列リードがフィルタリングされ得る。いくつかの実施形態では、ある特定の配列リードは、フィルターアウトされる(すなわち、複合遺伝子バリアント配列などの遺伝子の変化の存在または非存在を決定するために配列リード分析から排除される)。フィルターアウトされ得るリードとしては、例えば、不一致リード、あいまいなリード、オフターゲットリード、1またはそれを超える不確定の塩基コールを有する単一分子バーコード(SMB)配列を有するリード、低品質の試料インデックスを有するリード、および低品質のバーコード(例えば、単一分子バーコード)を有するリードが挙げられる。低品質配列(例えば、バーコード、インデックス)は、配列中の1またはそれを超えるヌクレオチドの位置についての塩基品質スコアにしたがって同定され得る。塩基品質スコア、すなわち、品質スコアは、塩基コーリング中のエラーの確率の予測である。品質スコアは、一連の品質予測値を使用する品質テーブルによって生成され得、配列リードの生成のために使用された配列決定プラットフォームのある特定の特徴に依存し得る。一般に、高品質スコアは、塩基コールがより信頼性があり、不正確な塩基コールの可能性が低いことを示す。例えば、品質スコアが40の塩基コールについては、10,000塩基コール中に1つの不正確な塩基コールが予想され得、または品質スコアが30の塩基コールについては、1,000塩基コール中に1つの不正確な塩基コールが予想され得、または品質スコアが10の塩基コールについては、10塩基コール中に1つの不正確な塩基コールが予想され得る。
配列リード(必要に応じてフィルタリングされた)および必要に応じた品質スコアは、生配列決定データ460として出力される。いくつかの例では、生配列決定データ460は、さらなる処理のためにFASTQファイルなどの標準化されたファイル形式で出力される。他の例では、生配列決定データ460は、バイナリーベースコール(BCL)形式などの塩基形式で出力され、脱多重化を用いてさらなる処理のためにFASTQなどの標準化されたファイル形式に変換される。FASTQは、生配列データおよび品質スコアの両方を記憶するテキストベースの配列決定データファイル形式である。
配列決定サブシステム415内のブロック465では、生配列決定データ460の配列リードは、マッピングされ、指定された核酸領域(例えば、染色体または標的領域などのその一部)にマッピングされているリード数はカウントと称される。マッピングヌクレオチド配列リード(すなわち、物理的なゲノムの位置が未知の断片由来の配列情報)は、リファレンスゲノムまたは1またはそれを超える足場447中のマッチング配列(例えば、ゲノム部分または富化部分(例えば、標的富化プローブ))との得られた配列リードのアラインメントを含む。かかるアラインメントでは、配列リードは、リファレンス配列または1またはそれを超える足場447に対してアラインメントされ、アラインメントされた配列リードは、「マッピングされた」、「マッピングされた配列リード」、または「マッピングされたリード」と称される。ある特定の例では、配列リードは、変異足場中の複合遺伝子バリアント配列を含むマッチング配列にマッピングされ、配列リードは、野生型足場中に野生型配列を含むマッチング配列にマッピングされる。
「アラインメントされた」または「アラインメント」は、マッチ(例えば、100%同一)または部分的マッチと同定され得る2またはそれを超える核酸配列(例えば、配列リードおよび変異足場)を指す。アラインメントは、コンピュータ(例えば、ソフトウェア、プログラム、モジュール、またはアルゴリズム)によって行われ、その非限定的な例としては、Illumina Genomics Analysisパイプラインの一部として販売されているヌクレオチドデータの効率的な局所アラインメント(ELAND)コンピュータプログラムを含む。いくつかの例では、配列リードのアラインメントは、100%配列マッチであり得る。他の例では、アラインメントは、100%未満の配列マッチ(すなわち、不完全なマッチ、部分的マッチ、部分的アラインメント)である。ある特定の例では、アラインメントアルゴリズムは、バリアントまたは複合遺伝子バリアントを有するリードのみが変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を含むようにパラメータ化される。マッピングされた配列リードは、「ヒット」または「カウント」と称され得る。いくつかの実施形態では、マッピングされた配列リードは、種々のパラメータにしたがってグループ化(すなわち、区分化)され、特定のゲノム部分または足場447に割り付けられる。生配列決定データ460の配列リードの1またはそれを超える足場447とのアラインメントにより、配列決定システム(例えば、NGS)自体の機能性が特異的に改善され、すなわち、配列決定システムによる配列リードの不適切な分離が減少し、バリアントの同定およびフェージングシステムによるバリアントコーリングおよびフェージングの感度および特異性が改善される。より具体的には、ミスマッチおよびギャップペナルティコストは、最低のコスト(ゼロまたは最小のミスマッチまたはギャップ)を用いてリードを位置に強制的にマッピングさせる。結果として、野生型由来のリードは、常に野生型足場にマッピングされる一方で、変異を含むリードは、常に変異足場にマッピングされる。また、リード長が同一のハプロタイプに属する両方のバリアントを対照にするのに十分な長さである場合、これはハプロタイプに適用される(「フェージング」)。
配列決定サブシステム415内のブロック470では、選択された特徴量または変数に基づいてマッピングまたは区分化された配列リードを定量化して、1またはそれを超える部分(例えば、リファレンスゲノムまたは1またはそれを超える足場447の一部)にマッピングされたリードの量または数を決定することができる。いくつかの実施形態では、部分またはセグメントにマッピングされた配列リードの量は、カウントまたはリード密度と称される。ある特定の実施形態では、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードがカウントされ、野生型配列を含む配列にマッピングされた配列リードがカウントされる。カウントにより、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および野生型配列を含む配列にマッピングされた配列リードの定量が行われる。
カウントを、好適な方法、操作、または数学的プロセスによって決定することができる。カウントは、時折、ゲノム部分またはセグメントに対応するゲノム部分の群、ゲノムの小領域(例えば、コピー数変動領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域)に対応する部分の群にマッピングされた全ての配列リードの直和であり、そして/あるいは、時折、ゲノムに対応する部分の群である。リード定量は、時折、比であり、時折、領域a中の一部の定量の、領域b中の一部の定量に対する比である。領域aは、時折、1つの部分(例えば、野生型足場)、セグメント領域、コピー数変動領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、および/または性染色体領域である。領域bは、独立して、時折、1つの部分(例えば、変異足場)、セグメント領域、コピー数変動領域、コピー数変化領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域、全ての常染色体を含む領域、性染色体を含む領域、および/または全ての染色体を含む領域である。
アラインメントは、標準化された形式(BAMファイルなど)に変換され、選別ツールを用いて選別してインデックスを付け、生マッピングデータ475として出力され得る。アラインメントは、リード名、リード配列、リードの品質、アラインメント情報、カスタムタグ、およびカウントまたは定量の情報を含む。リード名は、染色体、開始座標、アラインメントの品質、およびマッチ記述子のストリングを含む。いくつかの例では、ブロック465および470で実施されるマッピングおよびアラインメントプロセスは、レーンの統合(例えば、複数の試料由来の配列アラインメントの統合)、重複のマーキング(例えば、配列決定ワークフロー中に生じる人為的に重複している可能性が高いリードを同定する)、塩基品質スコアにおける系統誤差の検出および補正(例えば、塩基品質スコアの再較正)、および/またはマッピングおよびアラインメントの品質のチェック(例えば、マッピングされたリードの特徴にしたがって生マッピングデータ475中の配列決定アラインメントデータを試験し、配列決定および/またはデータのマッピングにおける偏りを検出するのに役立つデータの全体図を提供する)をさらに含み得る。
バリアント同定およびフレージングサブシステム420内のブロック480および必要に応じたブロック485では、生マッピングデータ475を、本明細書中に記載の技術を使用して分析して、(i)配列リード内に複合遺伝子バリアントを含むバリアントを検出し、必要に応じて、(ii)検出されたバリアントを元の染色体に割り当てる(すなわち、フェージング)。バリアントコールは、個別のゲノムまたはトランスクリプトーム中の所与の位置に、リファレンス(例えば、リファレンスゲノムおよび/または1またはそれを超える足場447)に対してヌクレオチドに相違があるとの結論である。バリアントコールは、バリアント頻度の推定によって行われ得、バリアントコールの信頼性の尺度である。バリアントコーリングは、アラインメントされたリードがリファレンスゲノムおよび/または1またはそれを超える足場447と異なる場合を同定する工程(すなわち、リード配列内の位置のリードカバレッジをカウントし、位置ベースのカウント情報に基づいて複合遺伝子バリアントを含むバリアントを検出する工程)、および同定された相違またはバリアントを、バリアント同定および必要に応じたフェージングデータ490の一部として、バリアントコール形式(VCF)などの標準化されたファイル形式で出力する工程を含み得る。所定の閾値は、バリアントのフィルタリングおよび検出のために使用され得る。例えば、1つの基準は、少なくとも5オルタナティブアレル深度および1%を超えるアレル頻度を有する全ての報告されたバリアントをリクエストすることを含み得る。しかしながら、ゲノム中の各遺伝子座は、配列構成、マッピング可能性、バックグラウンドノイズレベルなどに関して異なる特徴を有し得る。位置特異的閾値または位置特異的モデルを使用して、バックグラウンドノイズ由来のシグナルまたは真のバリアントが区別され得る。
いくつかの例では、バリアントコーリングは、試料由来の1またはそれを超える配列の変異足場に対するアラインメントおよび試料由来の1またはそれを超える配列の野生型足場に対する非アラインメント(アラインメントを行わない)に基づいて、試料が複合遺伝子バリアントに特徴的な変異を含むかどうかを決定することを含み得る。複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、この決定を行い得る。ある特定の例では、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、試料が複合遺伝子バリアントに特徴的な変異を含むことを決定する。例えば、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量が設定閾値量より高い場合、試料が複合遺伝子バリアントに特徴的な変異を含むと決定し得る。あるいは、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量が設定閾値量より高く、かつ野生型配列を含む配列にマッピングされた配列リードの定量が設定閾値量未満である場合、試料が複合遺伝子バリアントに特徴的な変異を含むと決定し得る。
バリアントコーリングは、変異が試料中でヘテロ接合性またはホモ接合性のいずれであるかを決定する工程含むフェージングをさらに含み得る。例えば、2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)のいずれに存在するのかを決定する工程。いくつかの例では、バリアントコーリングは、リード配列が2またはそれを超える変異を有することを決定する工程をさらに含み得る。変異足場および野生型足場は、(i)シス位に病原性変異を含む複合バリアント配列を有する配列、(ii)トランス位に病原性変異を含む複合バリアント配列を有する配列、(iii)病原性変異を含まない複合バリアント配列を有する配列、または(iv)複合バリアント配列を含まない病原性変異を有する配列を識別することができる。フェージング情報は、標準化されたファイル形式でのバリアントの同定およびフェージングデータ490の一部としての出力であり得る。したがって、c.833T>Cバリアントなどの病原性バリアントが複合遺伝子バリアントと同一のペアエンドリード中にも生じる場合、病原性バリアントは、変異足場中の塩基変化として検出されるであろう。他方では、病原性バリアントのみを含むリードは野生型足場にアラインメントされ、病原性バリアントが同定されるであろう。
効率的なバリアントコーリングおよびフェージングを容易にするために、変異足場は、さらなる人為的な遺伝的変動(例えば、足場位置での塩基変化)を用いて構築され得る。さらなる人為的な遺伝的変動は、複合バリアント配列、野生型配列のいずれにも見出されない。変異足場中のさらなる人為的な遺伝的変動により、(例えば、複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのための)複合遺伝子バリアントを有するリードを容易に同定するための所定のバリアントコールのためのマーカーとして役立つ予想ミスマッチが得られる。変異足場中の複合遺伝子バリアント配列を含むマッチング配列に配列リードをマッピングする工程は、さらなる人為的な遺伝的変動に基づいて、配列リードと複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することをさらに含み得る。複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程は、複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよびさらなる人為的な遺伝的変動をカウントすることをさらに含み得る。
試料に複合遺伝子バリアントが存在するか存在しないという結果490は、試料が変異を含むかどうかの決定に基づいて出力されるか提供される。例えば、複合遺伝子バリアントの存在または非存在は、その場で表示されるか、別のデバイスに転送され得る。複合遺伝子バリアントの存在または非存在は、被験体(例えば、試料に関連する被験体)の識別子と共に出力され得る。いくつかの例では、複合遺伝子バリアントの存在または非存在は、記憶デバイスのエンドユーザーに出力される。いくつかの例では、試料に複合遺伝子バリアントが存在するか存在しないという結果は、試料が複合遺伝子バリアントに特徴的な変異を含むかどうか、および2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して出力される。したがって、ヘテロ接合性またはホモ接合性の決定を使用して、処置の決定および治療の選択肢およびプロトコルに影響を及ぼすことができる。必要に応じて、試料中の複合遺伝子バリアントの存在にしたがって試料に関連する被験体に処置を施す。あるいは、コンピュータに実装される方法、システム、またはコンピュータプログラム製品は、試料中の複合遺伝子バリアントの存在にしたがって試料に関連する被験体に対して処置(例えば、所与の処置の開始を推奨する結果を医療従事者に提供すること、処置行為を自動的に誘発する結果を提供すること、および結果に基づいて医療従事者が処置行為を取る結果を提供することなど)を開始する。いくつかの例では、処置は、治療剤または規定食の変更である。例えば、複合遺伝子バリアントがCBS遺伝子の標的領域中に存在する場合、治療剤はビタミンB6であり得るか、食事の変化は低メチオニン食であり得る。
図5は、本明細書中に開示の配列バリアントコールおよびフェージングを同定および/または確証するために使用され得る配列決定データを獲得するための、開示の実施形態と併せて使用される得る分析システム500(例えば、図4に関して記載の分析システム405)の概要図である。分析システム500は、任意の配列決定技術(合成しながら配列決定する技術、ライゲーション技術、ナノポア配列決定、蛍光in situ配列決定(FISSEQ)、および大規模並行型シグニチャー配列決定(MPSS)を組み込んだ技術など)にしたがって実装され得る。特定の実施形態では、分析システム500は、DNA沈着物が各光ダイオードと1対1でアラインメントされるように、光ダイオード上に作製されたナノウェルを備えたCMOSセンサを使用して操作されるように構成され得る。分析システム500は、4つのヌクレオチドのうちの2つのみが標識され、任意の所与の画像について検出可能な「1チャンネル」検出デバイスであり得る。例えば、チミンは永久的な蛍光標識を有し得る一方で、アデニンは、検出可能な形態の同一の蛍光標識を使用する。グアニンは永久的に暗色であり得、シトシンは最初は暗色であり得るが、サイクル中に標識を付加することができる。したがって、各サイクルは、最初の画像ではチミンおよびアデニンのみが検出可能であるが、第2の画像ではチミンおよびシトシンのみが検出可能となるように、色素が任意のアデニンから切断され、任意のシトシンに付加される最初の画像および第2の画像を含み得る。両方の画像を通して暗色である任意の塩基はグアニンであり、両方の画像を通して検出可能な任意の塩基はチミンである。第1の画像では検出可能であるが、第2の画像では検出不可能な塩基はアデニンであり、第1の画像では検出可能ではないが、第2の画像では検出可能な塩基はシトシンである。最初の画像および第2の画像由来の情報を組み合わせることによって、4つ全ての塩基が、1つのチャンネルを使用して識別可能である。
分析システム500は、別個の試料処理デバイス505および計算装置510を含み得る。しかしながら、これらは、単一のデバイスとして実装され得る。さらに、計算装置510は、ローカルであるか、試料処理デバイス505とネットワークで結ばれ得る。示した実施形態では、試料は、計算装置510中の試料基板515(例えば、フローセルまたはスライド)上にロードし得、画像化して配列データを生成する。例えば、生物試料と相互作用する試薬は、イメージングモジュール520によって生成された励起ビームに反応して特定の波長の蛍光を発し、それにより、イメージングのための放射線が戻る。例えば、蛍光成分は、成分の相補性分子にハイブリッド形成する蛍光をタグ化した核酸またはポリメラーゼを使用してオリゴヌクレオチドに組み込まれた蛍光をタグ化したヌクレオチドによって生成され得る。当業者に認識されるように、試料の色素が励起される波長および蛍光を発する波長は、特定の色素の吸収スペクトルおよび発光スペクトルに依存するであろう。かかる戻った放射線は、方向付けられた光を遡って伝播し得る。この逆ビームは、一般にイメージングモジュール520の検出光学系に方向付けられ得る。
イメージングモジュール検出光学系は、任意の好適なテクノロジーに基づき得、例えば、デバイス中の位置に影響を受ける光子に基づいて画素化された画像データを生成する電荷結合素子(CCD)センサであり得る。しかしながら、種々の他の検出器のうちのいずれかも使用され得ることが理解されるであろう(時間遅延積分(TDI)操作のために構成された検出器配列、相補型金属酸化膜半導体(CMOS)検出器、アバランシェフォトダイオード(APD)検出器、ガイガーモード光子カウンター、任意の類似のテクノロジー、またはその任意の組み合わせ(例えば、TDIモード検出を、回線走査と結合することができる)が挙げられるが、これらに限定されない)。
イメージングモジュール520は、例えば、プロセッサ525を介してプロセッサ制御下にあり得、試料回収デバイス505は、I/Oコントロール530、内部バス535、不揮発性メモリ540、RAM545、およびメモリが本明細書中に記載の実行可能な命令配列の処理を記憶することができるような任意の他のメモリ構造をさらに含み得る。計算装置510は、1またはそれを超える通信バス560を使用してメモリ555および計算装置510の他の構成要素と通信しているプロセッサ550を含み得る。プロセッサ550は、本明細書中に提供されたゲノム配列データを操作するためにメモリ555に記憶されたプロセッサ実行可能命令を実行するように構成されている。特定の実施形態では、イメージングモジュール520によって取得された画像データに基づいて、分析システム500は、配列リードの各塩基についての塩基コールを含む配列決定データを生成するように構成され得る。さらに、画像データに基づいて、個別のリードは、リファレンスゲノムおよび/または1またはそれを超える足場に対してマッピングされるか、アラインメントされ得る。また、プロセッサ550は、アラインメントされた配列リードに対するバリアントコーリングおよびフェージングなどの下流解析を行うようにプログラミングされ得る。プロセッサ550は、BAMファイルなどの標準化された形式で配列データを操作し、種々の標準化された形式(VCFまたはGVCFファイルなど)でバリアントコールおよびフェージングを出力するように構成され得る。
また、計算装置510は、この例では、ユーザー入力を受け入れるための1またはそれを超えるユーザー入力デバイス565(キーボード、マウス、タッチスクリーン、マイクロフォンなど)を含む。また、計算装置510は、ユーザーインターフェースなどのユーザーに視覚的出力を提供するためのディスプレイ570を含む。また、計算装置510は、通信インターフェース575を含む。いくつかの例では、通信インターフェース575は、1またはそれを超えるネットワーク(ローカルエリアネットワーク(「LAN」);広域ネットワーク(「WAN」)(インターネットなど);メトロポリタンエリアネットワーク(「MAN」);二地点間接続または同位層間接続などが挙げられる)を使用して通信できる場合がある。他のデバイスとの通信は、任意の好適なネットワークプロトコルを用いて行われ得る。例えば、1つの好適なネットワークプロトコルは、インターネットプロトコル(「IP」)、伝送制御プロトコル(「TCP」)、ユーザーデータグラムプロトコル(「UDP」)、またはその組み合わせ(TCP/IPまたはUDP/IPなど)が挙げられ得る。
実施例
カスタム足場アプローチを、臨床的に有意な、CBS遺伝子の複合バリアントの検出のために査定した。CBS遺伝子は、酵素シスタチオニンベータ-シンターゼをコードし、その欠損により、ホモシスチン尿症(OMIM236200)を発症する。キャリア試験パネルは、病原性CBSバリアント(単一のヌクレオチドバリアントNM_000071.2:c.833T>C(rs5742905、NP_000062.1:p.Ile278Thr、HG19 chr21:44483184A>G)が挙げられる)を査定し得る。このバリアントは、0.02%(1000人ゲノムプロジェクト)から0.15%(ゲノム集約データベースまたはgnomAD;式2*p*[1-p]を使用して染色体ベースの集団頻度p=0.08%から変換し、ハーディ・ワインベルグ平衡を想定する)までの範囲の集団キャリア頻度が報告されている。c.833T>Cバリアントは、しばしば、シス位に68bp挿入NM_000071.2:c.844_845ins68を含み、良性の複合バリアントNM_000071.2:c.[833T>C;844_845ins68]を形成する。c.[833T>C;844_845ins68]の集団キャリア頻度は、民族の違いで非常に変動し、その範囲は、アフリカ人および北欧人種の40~50%から、東アジア人の2.5%、およびアメリカ先住民の1%未満までである。今日まで、シス位にのみc.833T>C変異を有するc.844_845ins68は、分離すると報告されている;しかしながら、いくつかの他のシナリオ(トランス位にc.833T>Cを含むc.[833T>C;844_845ins68](疾患重症度を減弱さえもし得る複合バリアント)が挙げられる)も妥当である。c.833T>Cの臨床的解釈がc.844_845ins68の存在およびこれを用いたフェージングに依存するので、遺伝子試験において両方のバリアントを正確に遺伝子型同定し、フェージングすることが不可欠である。
全ての可能性のある遺伝子型とCBSバリアントc.833T>Cおよびc.844_845ins68のフェージングの順列を正確に区別することができるバリアント特異的カスタム足場のデザインおよび構築を開示する。臨床試験におけるアプローチの有用性を、60,000を超える患者標本および2つの1000人ゲノムプロジェクトの細胞株トリオにおけるc.833T>Cバリアントのみまたは複合バリアントc.[833T>C;844_845ins68]としての検出に方法を適用することによって実証する。アラインメントのリファレンスとして1つの一次配列を使用する従来の方法と比較した場合、カスタマイズされた足場法は、マッピングの偏りという問題を回避し、重要なフェージング情報も得られた。開示の方法およびシステムは、特に、集団データセットで過小評価され得る複合バリアントについてのアッセイの感度および特異性が有意に改善した。
カスタム足場組成物およびバリアントコール分析
本発明者らのカスタム足場アプローチで使用するための68bp挿入配列を定義するために、gnomADおよびClinVarデータベースを検索した。バリアントについて以下の2つの記述が存在することが見出された:NM_000071.2:c.844_845ins68(ClinVar Variation ID 212823)およびNM_000071.2:c.832_833ins68(ClinVar Variation ID 226482)。これらの記述は、その挿入部位および配列が異なっており、c.833T>Cがシス位に存在していた場合、その位置を、挿入配列の一部(すなわち、c.832_833ins68)または挿入配列と分離して(すなわち、[c.833T>C;844_845ins68])割り付けることができる。さらに精査すると、68bp挿入および野生型ゲノムの配列がエクソンで挿入が生じる部位で同一であるので、両方の記述は等価であると結論付けた(図2a)。分析においてc.833T>Cを挿入配列と区別するため、また一貫性を保つために、68bp挿入はc.844_845ins68と称され、シスバリアントはc.[833T>C;844_845ins68]と称される。本明細書中で考察されるように、c.844_845ins68バリアントは、CBS遺伝子のコードエクソン8の5’末端付近で生じ、小数の相違塩基を除いて、イントロン7の最後の52塩基およびエクソン8の最初の16塩基が重複している(GRCh37/HG19 chr21:44483173-44483240)。挿入された配列は、野生型塩基のコピーc.833Tおよびイントロン7-エクソン8ジャンクションの3’スプライス部位を含み、後者は、転写物においてオルタナティブスプライシングを引き起こす。結果として、挿入物中のc.833T野生型塩基が保持される一方で、c.833T>Cバリアントは、シス位に挿入物が存在する場合、切り出される(図2b)。c.844_845ins68バリアントの2つのオルタネートアレルが、gnomAD(v2.1.1)で報告されていることも示された。1つの対立遺伝子は、GRCh37/HG19リファレンスゲノムと3塩基異なり(約96%同一;以後、共通の68bp挿入と称される)、さらなる相違塩基を有する他の集団(HG19と約94%同一)よりも一般集団において多く見られ、gnomADにおいてアフリカ民族の16個体のみで同定される(以後、稀な68bp挿入と表す)。にもかかわらず、いずれかの対立遺伝子配列を用いて、68bp挿入配列とリファレンスゲノム配列(例えば、GRCh37/HG19またはGRCh38/HG38)との間の類似性が高いとc.[833T>C;844_845ins68]複合バリアントを有するリードが標準的なゲノムアセンブリに強制アラインメントされ、それにより、挿入および/またはc.833T>Cバリアントの検出が複雑になり、偽コールに至る可能性がある。
この課題に取り組むために、68bp挿入を含むリードおよび含まないリードを識別するための2つのカスタム足場(CBS_WTおよびCBS_MU)を構築した(図3)。CBS_WT足場は、正常な遺伝子型を表し、GRCh37/HG19に基づいて5,000bpのCBS遺伝子領域をchr21:44480001-44485000に含む。CBS_MU足場は、挿入遺伝子型であり、CBS_WT足場と同一のゲノム領域+共通68bp挿入配列からなる。アラインメントアルゴリズムにおけるミスマッチコストとギャップペナルティコストの相違に起因して、挿入を有するリードのみがCBS_MU足場に対してアラインメントされるであろう。効率的なバリアントコーリングおよびフェージングを容易にするために、足場の3210位にさらなるG>C塩基変化を含むCBS_MU足場も構築した(CBS_MU:3210と命名する)。この位置の野生型塩基は、霊長類で高度に保存されており、1000人ゲノムプロジェクトおよびdbSNP150データベースによると、多形性、病原性バリアントは知られていない。CBS_MU足場中で「G」から「C」に塩基が変更することにより、68bp挿入を有するリードを容易に同定するための所定のバリアントリードのためのマーカーとして役立つ予想ミスマッチが作出される(図2b、Ref:CBS_MU)。c.833T>Cバリアントが68bp挿入と同一のペアエンドリードでも生じる場合、CBS_MU足場中の3252位の塩基変化として検出されるであろう(すなわち、CBS_MU:3252A>G;図3c、Ref:CBS_MU)。他方では、c.833T>Cバリアントのみを含むリードは、CBS_WT足場に対してアラインメントされ、この病原性バリアントは、CBS_WT:3184A>Gと同定されるであろう(図3a、Ref:CBS_WT)。
シミュレートされたリードを用いたカスタマイズされた足場のアプローチの査定
リードマッピングの特異性についてカスタム足場を査定するために、全ての可能な遺伝子型の組み合わせを表すシミュレートされたリードを、ARTシミュレーションツールキットを使用して生成した。試験されたバリアントコールおよび対応するバリアント対立遺伝子頻度(VAF)を表1にまとめ、これは遺伝子型コーリング過程における参照表としても機能する。使用したカスタム足場および所与のCBS遺伝子型のための各足場に対してアラインメントされるリードの百分率を示す。カスタムCBS_MU足場が68bp挿入配列を含むので、少なくとも1つの対立遺伝子上にc.844_845ins68を含む任意のバリアント組み合わせがMU:3210C>Gでのバリアント頻度100%であることに留意のこと。68bp挿入を含む少数のリードもCBS_WT足場に対してアラインメントされると考えられるので、c.844_845ins68またはc.[833T>C;844_845ins68]のいずれかがヘテロ接合性の試料は、ホモ接合性の試料と比較して、この足場へのリードマッピングが多いであろう。
表1
Figure 2023526441000002
Figure 2023526441000003
予想通り、c.833T>Cバリアントのみを含むリードが、CBS_WT足場のみに対してアラインメントされた(図3a、Ref:CBS_WTのRef:CBS_MUとの比較)。c.844_845ins68バリアントを含むリードは、CBS_MU足場に優先的にアラインメントされ(図3b-d、Ref:CBS_MU)、CBS_MU:3210でのG>Cリードアウトが100%VAFであることによって容易に同定されたのに対して、CBS_MU:3252A>Gでの塩基変化(これも100%VAF)の同時出現は、68bp挿入がシス位にc.833T>Cを有することを示した(図3c、Ref:CBS_MU)。挿入配列とリファレンス配列との間の相同性が高いので、c.844_845ins68配列を含むリードの画分も、非アラインメントリード末端のソフトクリッピングに起因して、CBS_WT足場にアラインメントされた。得られたカバレッジ深度の増加は、構造バリアントが存在することを示唆し得る;しかしながら、バリアントコーラーがソフトクリッピングされた塩基を無視するので、68bp挿入配列はそのまま同定されない(図3b、Ref:CBS_WT)。また、Ref:CBS_MU足場を使用して、c.844_845ins68の2つのコピー(一方はシス位にc.833T>Cを含み、他方は反対の対立遺伝子上に含む(表1、最後の行))を含む試料の遺伝子型を決定した。この場合、それぞれ100%および50%のVAFでのCBS_MU:3210G>CおよびCBS_MU:3252A>Gの塩基変化により、複合ヘテロ接合性が同定されるであろう。あるいは、c.833T>Cがc.[833T>C;844_845ins68]に対してトランスで生じる場合、CBS_MU足場およびCBS_WT足場の両方に対するリードアラインメントは、検出のためにCBS_WT:3184A>G、CBS_MU:3210G>C、およびCBS_MU:3252A>Gをそれぞれ約60%、100%、および100%のVAFで使用する必要があるであろう(表1、最後から2番目の行;図3d)。両方の対立遺伝子上にc.833T>Cが存在することにより、CBS_WT:3184A>GについてのVAFが100%から約60%までの減少することが予想される。
カスタム足場アプローチと比較して、HG19リファレンスゲノムに対するアラインメントは、CBSバリアントの検出およびフェージングに難題をもたらした(図3b~d、Ref:HG19)。68bp挿入が本質的に野生型配列の重複であるので、このバリアントを含む全てのリードは、単独またはc.833T>Cとの組み合わせのいずれであっても、左側および右側のブレークポイントでの非アラインメントリード末端のソフトクリッピングによってHG19リファレンスゲノムに対して強制的にアラインメントされた。結果としてのリードカバレッジの増加は、挿入(図3b~d、Ref:HG19)を示し得るが、挿入配列中に野生型c.833T塩基がさらに存在するので、chr21:44483184でのc.833T>C対立遺伝子頻度は、バリアントコーリング閾値未満に低下し、それにより、c.833T>Cバリアントの検出に影響を及ぼし得る(図3c、Ref:HG19)。対照的に、病原性バリアントc.833T>Cのみを含むリードは、HG19リファレンス配列と容易にアラインメントされ、バリアントは、chr21:44483184で容易に検出された(図3a、Ref:HG19)。トランス位にc.[833T>C;844_845ins68]複合バリアントを含むバリアントを含むリードのアラインメントは、c.833T>C自体のプロフィールと類似するプロフィールを有していたが、chr21:44483184での変異塩基についての対立遺伝子頻度はより低かった(図3d、Ref:HG19)。
カスタマイズされた足場対アラインメントリファレンスとしての一次配列の比較による査定
カスタム足場アプローチの性能をさらに評価するために、CBSバリアントコールと、1000人ゲノムプロジェクトトリオ、CEPH/UTAH家系NA12878/NA12891/NA12892、およびYRI家系NA19240/NA19239/NA19238についてのNGSデータ分析による単一のリファレンスゲノムマッピング由来のコールとを比較した。サンガー配列決定を使用して、c.833T>Cバリアントおよびc.844_845ins68バリアントがNA12892(CEPHの母)、NA19240(YRIの娘)、およびNA19238(YRIの母)に存在することが同定および確認されている。メンデル遺伝学によって推定したところ、3つ全ての細胞株において2つのバリアントがシス位にあると決定された。
リファレンスとしてカスタム足場を使用して、3つ全ての1000人ゲノムプロジェクト試料は、CBS_MU:3210およびCBS_MU:3252での塩基変化によって示すように(図6)シス位に68bp挿入を含むc.833T>Cバリアントが正確に遺伝子型同定された(Ref:CBS_MUおよびRef:CBS_WT)。したがって、図6は、本開示の実施形態にしたがってカスタム足場を使用した2つの1000Gトリオ中のc.[833T>C;844_845ins68]の検出を示す。CEPH(a~c)およびYRIトリオ(d~f)についてのカスタム足場Ref:CBS_MU上のリードアラインメントを示す。特徴的なアラインメントプロフィールは、CEPHの母(b)およびYRIの母-娘のデュオ(d、e)がc.[833T>C;844_845ins68]複合バリアントを保有することを示す。リファレンスとしてHG19使用した場合、リードアラインメントプロフィールは、CEPHおよびYRIトリオの全てのメンバーと類似する(b~e)。矢印は、バリアントコーリングのために使用される有益な塩基を指し示す。68bp挿入配列とHG19リファレンス配列との間の2つの相違塩基を、小さな矢印によって示す。挿入配列の末端の第3の相違塩基は、ソフトクリッピングに起因してアラインメント中に認められない。
両方のトリオにおけるc.[833T>C;844_845ins68]の対立遺伝子分離は、予想されるメンデル遺伝パターンに対応し、それにより、カスタム足場法によるフェーズ割り付けが正確であることが確認された。しかしながら、GRCh37/HG19ビルドをリファレンスとして使用した場合、c.[833T>C;844_845ins68]複合バリアントを含む試料由来のリードは、リファレンスゲノムに対してマッピングされるように取り組まれ、68bp挿入のみを直接検出することができるか、リードカバレッジの増加に基づいてアラインメント中の構造バリアントと推測することができる(図6、Ref:HG19)。
1000人ゲノムプロジェクト(NCBI1000Genomes Browser Phase 3,ver3.7)由来のバリアントデータのより綿密な試験から、c.[833T>C;844_845ins68]複合バリアントはNA19240、NA19238のいずれについても呼び出されなかったことが明らかとなった;これらのバリアントについてのCBS遺伝子型データはNA12891については利用できなかった。c.833T>Cについての全集団のキャリア率は、1000人ゲノムプロジェクトにおいては0.02%(2019年11月30日にアクセス)、およびgnomADについては0.15%(2019年11月30日にアクセス)であることが見出された;1000Genomesデータセットのいずれかにおける複合バリアントの頻度に関する情報は、利用できなかった。この見かけ上の矛盾は、NGSアラインメント法を使用したので、シス位に68bp挿入が生じた場合に2つのトリオにおいて1000人ゲノムプロジェクトによってc.833T>Cバリアントが喪失した可能性が高いことを示唆している。NGSデータをさらに調査するために、本発明者らは、第2のコーリング法GATK Haplotypecaller(ver.4)を使用し、これは、変動のある任意の領域についてのSNPおよびインデルを同時に検出するために既存のマッピングデータの代わりにリードの局所de novo再アセンブリを使用する。アセンブリしたリードを再アラインメントするためのリファレンスとしてGRCh37/HG19を使用して、GATK Haplotypecallerは、NA19240、NA19238、およびNA12891中のシスバリアントを正確に呼び出した。したがって、領域の変動レベルを考慮することができるさらなる分析法を用いることなく、これらの所見は、標準的なリファレンスゲノムに対してリードをアラインメントしたときにCBSバリアントの予想検出限度と一致した。
カスタマイズされた足場を使用した臨床標本を用いたCBSバリアント分析
カスタマイズされた足場アプローチを、キャリア試験のために参照された全米から入手した60,318個の連続標本の分析に適用した(表2)。キャリア率は、c.[833T>C;844_845ins68]複合バリアントについては18.49%、病原性c.833T>Cバリアントについては0.17%と決定された。これらの試験においてc.[833T>C;844_845ins68]について認められたキャリア率は、アフリカ人/アフリカ系アメリカ人における40%までおよびアメリカ先住民集団における1%未満という一般集団頻度について報告された範囲と一致している。少数の臨床例(0.012%)について、c.833T>Cは、一方の染色体上に良性の複合バリアントc.[833T>C;844_845ins68]の一部として、および他方の染色体上の病原性の単一ヌクレオチドバリアントc.833T>Cとしても検出された(図7)。トランス位に68bp挿入を含むc.833T>Cバリアントの出現は、本発明者らの標本セットでは認められず、これは公開された集団研究と一致している。
図7は、本開示の実施形態のトランスで複合バリアントc.[833T>C;844_845ins68]を含むc.833T>C単一ヌクレオチドバリアントの検出を示す。カスタム足場およびHG19ゲノムアセンブリを使用したリードアセンブリの比較を、病原性バリアントc.833T>Cがc.[833T>C;844_845ins68]複合バリアントに対してヘテロ接合性である臨床試料についてIntegrative Genomics Viewerを使用して示す。矢印は、足場およびHG19上のバリアント検出についての有益な塩基の位置を示す。HG19をリファレンスとして使用して、c.833T>Cは、予想される座標で明確に検出されるが、68bp挿入は検出されない。DNA配列を塩基毎のカバレッジトラック上に示し、68bp挿入配列とHG19リファレンス配列との間で相違することが公知の塩基のうちの2つを、Ref:CBS_WTアラインメントおよびRef:HG19アラインメント中に小さな矢印によって示す。
表2
Figure 2023526441000004
民族性を自己報告した1861個の臨床試料のサブセットを、異なる群のキャリア率を評価するためにさらに分析した。比較として、gnomADにおけるc.833T>C(rs5742905)についての染色体ベースの集団頻度を抽出し、キャリア率に変換した。表2は、全体のc.833T>Cキャリア率(全ての民族)とヨーロッパ系の個体についてのc.833T>Cキャリア率は、gnomADと本研究との間で非常に類似していた。同様に、この研究で分析した異なる民族群の間のc.[833T>C;844_845ins68]複合バリアントについての集団頻度は、東アジア人群を除いて、gnomADで見出された頻度と一致していた(表2)。東アジア人群について、臨床標本中のキャリア率は、gnomADでははるかに高く、中国人集団で以前に報告されたキャリア率に酷似していた。さらに、種々の民族の85試料を、CBS_MU足場を使用して、シス位に稀な68bp挿入配列を含むc.833T>Cがヘテロ接合性と同定された。これらのうち、14試料は、共通の68bp挿入配列含むc.[833T>C;844_845ins68]複合バリアントを含む複合ヘテロ接合体であった(図8)。したがって、図8は、CBS_MU足場による臨床試料中の稀な68bp挿入の検出を示す。68bp挿入の稀な対立遺伝子がヘテロ接合性の試料(a)、および共にシス位にc.833T>Cを含む稀なおよび共通の68bp挿入対立遺伝子が複合ヘテロ接合体である試料(b)の代表例を示す。稀な68bp挿入対立遺伝子を含むリードがRef:CBS_MU足場上のMU:3239でのさらなるリードアウトによって検出されることが認められる。Ref:CBS_WTアラインメントおよびRef:HG19アラインメント中の小さな矢印によって示された塩基は、68bp挿入配列とHG19リファレンス配列との間で異なる。稀な68bp挿入対立遺伝子中の2つの他の相違塩基は、配列の最末端に生じるためにソフトクリッピングされ、アラインメント中に認められない。分析は、カスタム足場アプローチが、c.[833T>C;844_845ins68]複合バリアントの同定に失敗した他の集団データベース(例えば、1000Genomes)のために使用されてきた方法と比較して、c.833T>Cバリアントおよび68bp挿入などの困難なバリアントの検出およびフェージングを改善することをさらに実証した。
ヒトゲノムDNAを用いたハイスループット配列バリアント検出におけるNGSの成功は、ここ何年かで臨床遺伝子検査分野を改革してきた。単一のヌクレオチドバリアントおよび小さな挿入または欠失バリアントの検出のためのNGSの性能は、リードアラインメントのための現在の標準的なヒトリファレンスゲノムビルドを使用しても精度が高い。しかしながら、単一のリファレンスゲノムアプローチは、異なるハプロタイプ由来のリードが同一のゲノム領域に強制的にアラインメントされ、それにより、偽陽性および偽陽性のコールが得られるので、重複、偽遺伝子、パラロガス遺伝子、または複合バリアントを含む領域中のバリアント検出は、時折うまくいかない。この研究では、2つの臨床的に重要なCBSバリアントを例として使用して、カスタマイズされたバリアント特異的足場アプローチが、これらの複合領域についてのリードをハプロタイプによって分離することを可能にすることが見出された。高度に保存された塩基に予め定義したミスマッチに組み込んで、バリアントコールの効率的な選別およびフェージングのための変異足場をさらにカスタマイズする。開示のカスタム足場アラインメント法を、容易に拡大および適合させて、高額の装置、計算法の大規模なカスタマイズを必要とすることなく、他の技術的に困難な標的バリアントを検出することができる。現在のヒトリファレンスゲノムビルドを利用する標準的なNGSパイプラインと組み合わせて適用する場合、開示の方法は、バリアントコーリングプロセスの性能を改善することができる。
カスタム足場アプローチは、バリアント型の決定および感度および精度の高いフェージング情報の取得を可能にする。入力としてシミュレートされた短いリードを使用して、全てのバリアントおよびCBS複合バリアントc.[833T>C;844_845ins68]についてはフェージング組み合わせの問題が首尾よく解決され、それにより、アッセイの感度および特異性が改善された。1000人ゲノムプロジェクト由来の2つの広く研究されたトリオの分析から、メンデル遺伝パターンについて予想されるように分離した親子デュオにおいてc.[833T>C;844_845ins68]複合バリアントの存在が明らかとなり、これは、代表的なサンガー配列決定の結果と一致していた。
標準的なゲノムリファレンスに対してリードを直接アラインメントしたコーラーを用いてこのバリアントを検出しようとしても、さらなるアルゴリズム(GATK Haplotypecaller中のアルゴリズムなど)が使用されない限り、成功しなかった。また、c.833T野生型塩基も含む68bp挿入の配列が、リファレンスゲノムの配列とほとんど同一であることを考慮すると、シス位で生じたときにc.833T>Cのバリアント対立遺伝子頻度が過小評価されることが見出されることは驚くべきことではなかった。1000Genomesデータ中の稀なバリアントのフェージングおよび補完のエラーは、サンプルサイズが限られていたためであった。開示の実験は、初期のNGS分析で使用アラインメント法の結果として、1000Genomes試料中のc.[833T>C;844_845ins68]複合バリアントが未検出のままであったかもしれないこと、およびこれらのデータ中に他の複合バリアントまたは稀なバリアント(これらも過小報告された)が存在し得ることが示唆される。
カスタマイズされた足場を匿名の臨床試料(60,000標本超)の大規模コホートに適用して、病原性バリアントc.833T>Cについての代表的な集団キャリア頻度データおよび良性の複合バリアントc.[833T>C;844_845ins68]についてのキャリア頻度を得た。これらの試料をキャリア試験から得たので、確認バイアスを除外することができないが、しかしながら、他者によって報告されているように、c.[833T>C;844_845ins68]は、試料セット中に病原性c.833T>Cバリアント(0.17%)よりもはるかに高い頻度で(18.49%)認められた。c.833T>Cについての認めら得た全頻度は、gnomADにおける全頻度とほぼ同一であり、前述のgnomADは、健康な個体から本質的になり、したがって、臨床コホートに類似する。さらに、c.[833T>C;844_845ins68]の対立遺伝子頻度は、集団の民族性に依存して100倍超変動することが報告されている。試料の小さなサブセット(約3.1%)を民族性によって対立遺伝子頻度を比較することも可能であった。標本数が限られていたにもかかわらず、結果は、東アジア人を除いて分析した民族集団についてgnomADと一致しており、このことは、東アジア人群の試料の本発明者らのデータセットにおける人口構成が異なっていたかもしれないことを示唆していた。共通の68bp挿入対立遺伝子を使用してCBS_MU足場をデザインしたにもかかわらず、シス位に稀なc.844_845ins68対立遺伝子を含むc.833T>Cバリアントが、この足場を使用して0.14%の試料中に検出されたことも注目に値する。全てはc.[833T>C;844_845ins68]がヘテロ接合性であり、これらのうちの0.02%は、共通の68bp挿入対立遺伝子を有するc.[833T>C;844_845ins68]複合バリアントが複合ヘテロ接合性であり、これは、開示のアプローチが挿入の他のバリエーションを同定およびフェージングすることができることを示していた。興味深いことに、使用したコホート内で、トランス位にc.[833T>C;844_845ins68]を含むc.833T>Cを含む6つの試料も同定され、遺伝子型頻度は0.012%であった。この複合ヘテロ接合性は、イタリアのコホートにおいて軽症型のホモシスチン尿症を罹患した患者で以前に同定されていたが、今までに、遺伝子型頻度情報は報告されていなかった。
したがって、1つの実施形態では、開示のカスタム足場アラインメントアプローチは、特殊な機器、試薬、またはソフトウェアのコストを加算することなく、標準的なNGSパイプラインおよび現在のヒトリファレンスゲノムビルドを使用してバリアントを正確に呼び出しおよびフェージングすることができる。フェージング能がリード長に制限されるが、このアプローチは、困難な遺伝子内領域内(例えば、重複しているか他の遺伝子との相同性が高い領域内)に生じる複合構造バリアントの検出およびフェージングに特に好適である。2つの臨床的に重要なCBSバリアントを使用して実証されるように、特にキャリア試験などの臨床試験のために稀なバリアントおよび/または複合バリアントを検出し、正確に遺伝子型同定することができれば、より良好な生殖リスクの査定が可能であり、患者ケアの管理において医師に指針を示すのに役立つであろう。
方法
細胞株および標本
1000人ゲノムプロジェクト由来の2つの親子トリオ(ユタ州の北/西ヨーロッパ系の集団(CEPH/UTAH;NA12878、NA12891、およびNA12892)およびナイジェリアのイバダンのヨルバ族(YRI;NA19240、NA19239およびNA19238)を示す)の細胞株DNAを、Coriell Institute for Medical Research(Camden,NJ)から入手した。本発明者らのInheritestSMキャリア試験パネルでの試験のために参照された臨床標本に関するCBSゲノムデータを、本発明者らのCLIA承認臨床試験研究所(Integrated Genetics,Laboratory Corporation of America(登録商標)Holdings,Westborough,MA)で入手した。
以下の全ての手技は、ヒト実験において責任能力のある委員会(施設内および国家の)の倫理規範および1975年のヘルシンキ宣言(2000年改訂)にしたがった。ヒト被験体保護のための米国連邦政府政策にしたがって、表示データの非識別化により、施設内審査委員会から適用が免除された(連邦行政令第45編第46部101(b)(4))。試験を明示された時点で委託医師によって全ての患者から同意を得た。全ての標本は、この研究での使用前にIntegrated Geneticsで方針および手技にしたがって非識別化された。
InheritestSMキャリア試験NGSパネル
InheritestSMNGSキャリア試験は、CBS遺伝子を含む多重遺伝子パネルである。Agilent SureSelectXT法(Agilent Technologies,Santa Clara,CA)を使用して、ライブラリの調製および標的の富化を行った。簡潔に述べれば、ゲノムDNAを、超音波処理(Covaris,Woburn,MA)によって断片化し、その後に末端修復、Aテール化、およびアダプターのライゲーションを行った。標的富化工程を、約0.5M塩基を捕捉するためのカスタムデザインのAgilent RNAベイトを使用して行い、マルチプレックス配列決定のために捕捉後にライブラリにインデックスを付けた。96ライブラリまでを共にプールし、MiSeqV3化学またはHiSeq2500の急速運転モード(Illumina,San Diego,CA)のいずれかを使用して、15×最小塩基カバレッジで、2×150サイクルにてペアエンド配列決定した。生配列決定データを、Illumina CASAVA v.1.8.2ソフトウェアを用いて脱多重化して、各試料についてfastq配列を生成した。
バリアントの検出
ある特定の実施形態では、カスタマイズされた足場は、各々の困難なバリアントのためにデザインされ得る。かかる足場は、バリアント含むリードをバリアントを含まないリードと分離して、検出の感度および特異性を改善し得る。目的のバリアントに加えて、これらの足場は、さらなるデザインパラメータを含むこともできる。例として、68bp挿入を含むCBS複合バリアントについて、塩基変化を、68bp挿入の存在についてのリードアウトとして役立てるために、カスタム足場に導入した(68bp挿入の内側)。本明細書中に詳述するように、足場中に塩基変化を有することにより、68bp insと点変異(c.833T>C)との間をフェージングすることもできる。Illuminaペア末端配列リードを、CLCbio Genomic Server(バージョン9.1.1)およびWorkbenchソフトウェア(バージョン10.1.1)(Qiagen Bioinformatics,Redwood City,CA)を使用した内部開発および確証済みのバリアント検出ワークフローのための入力として使用した。このワークフローは、2つの部門を有していた。主な部門では、最初にリードをトリミングしてライブラリのアダプター配列および低品質の塩基を除去し(Q20最小品質閾値)、次いで、これらをGRCh37/HG19ヒトゲノムビルドに対してアラインメントし、その後に重複リードの除去、局所的再アラインメント、バリアント検出、および注釈付を行うことによって、InheritestSMパネルのための全ての配列決定リードを分析した。CBSバリアントc.833T>Cおよびc.[833T>C;844_845ins68]の検出およびフェージングのために、2つのカスタム足場に対するリードアラインメントのための第2のワークフロー部門を、リードトリミング工程後に実装した。第1の足場CBS_WTは、HG19リファレンス領域chr21:44480001-44485000と同一であった。第2の足場CBS_MUも同一の領域に由来していたが、共通の68bp挿入に加えて、挿入を検出するためのマーカーとして役立つ68bp挿入内にG>C塩基変化が導入されていた。足場へのリードマッピング後、バリアントの分析およびフェージング決定前に重複リードを除去した。このワークフローベンチからの出力をメイン部門出力に送信して、最終バリアント報告を作成した。
また、1000Genomesトリオ中の2つのCBSバリアントの分析を、推奨されるGATKベストプラクティスにしたがってGenome Analysis Toolkit(GATK ver.4.0;Broad Institute,Cambridge,MA)中のHaplotypecallerを使用し、さらにリファレンス配列としてGRCh37/HG19ビルドとして使用して実施した。シミュレートされたリードのアラインメントを、Integrative Genomics Viewer(IGV,Broad Institute,Cambridge,MA)を使用して可視化した。
バリアントリードのシミュレーション
自家製のPythonスクリプトを、リードシミュレーションのためにプラットフォーム特異的エラーモデルおよび塩基品質プロフィールを使用するARTパッケージを利用して、シミュレートされたバリアントリードを作成するために開発した。この研究で使用したペアリードシミュレーションのパラメータは、以下の通りであった:200×カバレッジ、リード長150bp、断片サイズ300bp、断片サイズの標準偏差100bp、およびIllumina HiSeqエラーモデル。ARTツールを使用したシミュレーションのための入力配列テンプレートは、全ての可能な遺伝子型および2つのCBS標的化バリアントであるc.833T>Cおよびc.844_845ins68のフェージング組み合わせ、ならびに標的化バリアントのいずれかの末端側の500個のさらなる隣接塩基を表していた。シミュレーション入力で使用したc.833T>Cおよびc.844_845ins68の全ての遺伝子型の組み合わせは、バリアントコーリング後に正確な遺伝子型の割り付けを報告することが確認されていた。
サンガー法での確認
NGSによって検出されたCBSバリアントを、以下の内部でデザインされた標的特異的なM13タグ化プライマーを用いたサンガー配列決定によって確認した:
順方向:5’-TGTAAAACGACGGCCAGTCCACCACCCACAGGCAGAT-3’(配列番号4)
逆方向:5’-CAGGAAACAGCTATGACCGCGGGGCTTGCCCTTCTGTT-3’(配列番号5)。
PCR増幅を、1×PCR緩衝液II中の0.25UのAmpliTaq Gold DNAポリメラーゼ(ThermoFisher Scientific,Waltham,MA)、1.5mM MgCl、50uM dNTP、および250nMプライマーおよび以下のサイクリング条件を使用して行った:95℃で10分間を1サイクル;95℃で20秒間の変性、60℃で30秒間のアニーリング、および72℃で60秒間の伸長を35サイクル;72℃で3分間を1サイクル。サンガー配列決定を、BigDye(商標)Terminator v3.1サイクル配列決定キット(ThermoFisher Scientific,Waltham,MA)を使用して行った。ABI3730XL(ThermoFisher Scientific,Waltham,MA)でのキャピラリー電気泳動。SeqScape v2.5(ThermoFisher Scientific,Waltham,MA)を、配列分析および可視化のために使用した。
PCR増幅を、1×PCR緩衝液II中の0.25UのAmpliTaq Gold DNAポリメラーゼ(ThermoFisher Scientific,Waltham,MA)、1.5mM MgCl、50uM dNTP、および250nMプライマーおよび以下のサイクリング条件を使用して行った:95℃で10分間を1サイクル;95℃で20秒間の変性、60℃で30秒間のアニーリング、および72℃で60秒間の伸長を35サイクル;72℃で3分間を1サイクル。サンガー配列決定を、BigDye(商標)Terminator v3.1サイクル配列決定キット(ThermoFisher Scientific,Waltham,MA)を使用して行った。ABI3730XL(ThermoFisher Scientific,Waltham,MA)でのキャピラリー電気泳動。SeqScape v2.5(ThermoFisher Scientific,Waltham,MA)を、配列分析および可視化のために使用した。
本発明は、例えば、以下の項目を提供する。
(項目1)
試料中の複合遺伝子バリアントの存在または非存在を検出する方法であって、
ゲノムの標的領域内に前記複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;
前記ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;
大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;
アラインメントアルゴリズムを使用した計算装置によって、前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に、前記配列リードをマッピングする工程;
前記アラインメントアルゴリズムを使用した前記計算装置によって、前記野生型足場中に前記野生型配列を含むマッチング配列に、前記配列リードをマッピングする工程;
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、前記カウントによって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および前記野生型配列を含む配列にマッピングされた配列リードの定量を行う、カウントする工程;
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が変異を含むかどうかを決定する工程;および
前記計算装置によって、前記試料が前記変異を含むかどうかの決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
を含む、方法。
(項目2)
前記変異足場が、前記複合バリアント配列、前記野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;
前記さらなる人為的な遺伝的変動が、前記複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;
前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に前記配列リードをマッピングする工程が、前記さらなる人為的な遺伝的変動に基づいて、前記配列リードと前記複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および
前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程が、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記さらなる人為的な遺伝的変動をカウントすることを含む、項目1に記載の方法。
(項目3)
前記複合遺伝子バリアントに特徴的な変異を有する前記配列リードのみが前記変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いて前記アラインメントアルゴリズムをパラメータ化する工程をさらに含む、項目1に記載の方法。
(項目4)
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;
前記計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するという結果を出力する工程;および
前記試料中の前記複合遺伝子バリアントの存在にしたがって、前記試料に関連する被験体を処置する工程
をさらに含む、項目1に記載の方法。
(項目5)
前記処置が、治療剤または規定食の変更である、項目4に記載の方法。
(項目6)
前記治療剤がビタミンB6であり、あるいは、前記食事の変更が低メチオニン食である、項目5に記載の方法。
(項目7)
前記複合バリアント配列が2つの変異を有する、項目1に記載の方法。
(項目8)
前記変異足場中のマッチング配列への前記配列リードのマッピングに基づいて、前記2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および
計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むかどうか、および前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
をさらに含む、項目7に記載の方法。
(項目9)
前記複合遺伝子バリアントが、シスタチオニンベータ-シンターゼ(CBS)遺伝子の標的領域に存在する、項目1に記載の方法。
(項目10)
前記変異足場および野生型足場は、(i)シス位にc.833T>C変異を含む68bp挿入[844_845ins68]を有する配列、(ii)トランス位にc.833T>Cを含む前記68bp挿入[844_845ins68]を有する配列、(iii)c.833T>Cを含まない前記68bp挿入[844_845ins68]を有する配列、または(iv)前記68bp挿入[844_845ins68]を含まないc.833T>Cを有する配列を区別する、項目9に記載の方法。
(項目11)
システムであって、
1またはそれを超えるプロセッサ;
前記1またはそれを超えるプロセッサに連結したメモリであって、前記メモリが、前記1またはそれを超えるプロセッサによって実行可能な複数の命令を記憶し、前記複数の命令が、前記1またはそれを超えるプロセッサによって実行されたときに、前記1またはそれを超えるプロセッサが、
ゲノムの標的領域内に前記複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;
前記ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;
大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;
アラインメントアルゴリズムを使用した計算装置によって、前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に、前記配列リードをマッピングする工程;
前記アラインメントアルゴリズムを使用した前記計算装置によって、前記野生型足場中に前記野生型配列を含むマッチング配列に、前記配列リードをマッピングする工程;
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、前記カウントによって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および前記野生型配列を含む配列にマッピングされた配列リードの定量を行う工程;
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が変異を含むかどうかを決定する工程;および
前記計算装置によって、前記試料が前記変異を含むかどうかの決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
を含む処理を行うための命令を含む、メモリ
を含む、システム。
(項目12)
前記変異足場が、前記複合バリアント配列、前記野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;
前記さらなる人為的な遺伝的変動が、前記複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;
前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に前記配列リードをマッピングする工程が、前記さらなる人為的な遺伝的変動に基づいて、前記配列リードと前記複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および
前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程が、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記さらなる人為的な遺伝的変動をカウントすることを含む、項目11に記載のシステム。
(項目13)
前記処理が、前記複合遺伝子バリアントに特徴的な変異を有する前記配列リードのみが前記変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いて前記アラインメントアルゴリズムをパラメータ化する工程をさらに含む、項目11に記載のシステム。
(項目14)
前記処理が、
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;
前記計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するという結果を出力する工程;および
前記試料中の前記複合遺伝子バリアントの存在にしたがって、前記試料に関連する被験体に処置を開始する工程
をさらに含む、項目11に記載のシステム。
(項目15)
前記複合バリアント配列が2つの変異を有し、前記処理が、
前記変異足場中のマッチング配列への前記配列リードのマッピングに基づいて、前記2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および
計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むかどうか、および前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
をさらに含む、項目11に記載の方法。
(項目16)
非一時的な機械可読記憶媒体において明白に具体化されるコンピュータプログラム製品であって、1またはそれを超えるデータプロセッサに以下を含む動作を実施させるように構成された命令を含む、コンピュータプログラム製品:
ゲノムの標的領域内に前記複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;
前記ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;
大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;
アラインメントアルゴリズムを使用した計算装置によって、前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に、前記配列リードをマッピングする工程;
前記アラインメントアルゴリズムを使用した前記計算装置によって、前記野生型足場中に前記野生型配列を含むマッチング配列に、前記配列リードをマッピングする工程;
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、前記カウントによって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および前記野生型配列を含む配列にマッピングされた配列リードの定量を行う工程;
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が変異を含むかどうかを決定する工程;および
前記計算装置によって、前記試料が前記変異を含むかどうかの決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程。
(項目17)
前記変異足場が、前記複合バリアント配列、前記野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;
前記さらなる人為的な遺伝的変動が、前記複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;
前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に前記配列リードをマッピングする工程が、前記さらなる人為的な遺伝的変動に基づいて、前記配列リードと前記複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および
前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程が、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記さらなる人為的な遺伝的変動をカウントすることを含む、項目16に記載のコンピュータプログラム製品。
(項目18)
前記動作が、前記複合遺伝子バリアントに特徴的な変異を有する前記配列リードのみが前記変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いて前記アラインメントアルゴリズムをパラメータ化する工程をさらに含む、項目16に記載のコンピュータプログラム製品。
(項目19)
前記動作が、
前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;
前記計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するという結果を出力する工程;および
前記試料中の前記複合遺伝子バリアントの存在にしたがって、前記試料に関連する被験体に処置を開始する工程
をさらに含む、項目16に記載のコンピュータプログラム製品。
(項目20)
前記複合バリアント配列が、2つの変異を有し、前記動作が、
前記変異足場中のマッチング配列への前記配列リードのマッピングに基づいて、前記2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および
計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むかどうか、および前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
をさらに含む、項目16に記載のコンピュータプログラム製品。

Claims (20)

  1. 試料中の複合遺伝子バリアントの存在または非存在を検出する方法であって、
    ゲノムの標的領域内に前記複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;
    前記ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;
    大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;
    アラインメントアルゴリズムを使用した計算装置によって、前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に、前記配列リードをマッピングする工程;
    前記アラインメントアルゴリズムを使用した前記計算装置によって、前記野生型足場中に前記野生型配列を含むマッチング配列に、前記配列リードをマッピングする工程;
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、前記カウントによって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および前記野生型配列を含む配列にマッピングされた配列リードの定量を行う、カウントする工程;
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が変異を含むかどうかを決定する工程;および
    前記計算装置によって、前記試料が前記変異を含むかどうかの決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
    を含む、方法。
  2. 前記変異足場が、前記複合バリアント配列、前記野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;
    前記さらなる人為的な遺伝的変動が、前記複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;
    前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に前記配列リードをマッピングする工程が、前記さらなる人為的な遺伝的変動に基づいて、前記配列リードと前記複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および
    前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程が、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記さらなる人為的な遺伝的変動をカウントすることを含む、請求項1に記載の方法。
  3. 前記複合遺伝子バリアントに特徴的な変異を有する前記配列リードのみが前記変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いて前記アラインメントアルゴリズムをパラメータ化する工程をさらに含む、請求項1に記載の方法。
  4. 前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;
    前記計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するという結果を出力する工程;および
    前記試料中の前記複合遺伝子バリアントの存在にしたがって、前記試料に関連する被験体を処置する工程
    をさらに含む、請求項1に記載の方法。
  5. 前記処置が、治療剤または規定食の変更である、請求項4に記載の方法。
  6. 前記治療剤がビタミンB6であり、あるいは、前記食事の変更が低メチオニン食である、請求項5に記載の方法。
  7. 前記複合バリアント配列が2つの変異を有する、請求項1に記載の方法。
  8. 前記変異足場中のマッチング配列への前記配列リードのマッピングに基づいて、前記2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および
    計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むかどうか、および前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
    をさらに含む、請求項7に記載の方法。
  9. 前記複合遺伝子バリアントが、シスタチオニンベータ-シンターゼ(CBS)遺伝子の標的領域に存在する、請求項1に記載の方法。
  10. 前記変異足場および野生型足場は、(i)シス位にc.833T>C変異を含む68bp挿入[844_845ins68]を有する配列、(ii)トランス位にc.833T>Cを含む前記68bp挿入[844_845ins68]を有する配列、(iii)c.833T>Cを含まない前記68bp挿入[844_845ins68]を有する配列、または(iv)前記68bp挿入[844_845ins68]を含まないc.833T>Cを有する配列を区別する、請求項9に記載の方法。
  11. システムであって、
    1またはそれを超えるプロセッサ;
    前記1またはそれを超えるプロセッサに連結したメモリであって、前記メモリが、前記1またはそれを超えるプロセッサによって実行可能な複数の命令を記憶し、前記複数の命令が、前記1またはそれを超えるプロセッサによって実行されたときに、前記1またはそれを超えるプロセッサが、
    ゲノムの標的領域内に前記複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;
    前記ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;
    大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;
    アラインメントアルゴリズムを使用した計算装置によって、前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に、前記配列リードをマッピングする工程;
    前記アラインメントアルゴリズムを使用した前記計算装置によって、前記野生型足場中に前記野生型配列を含むマッチング配列に、前記配列リードをマッピングする工程;
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、前記カウントによって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および前記野生型配列を含む配列にマッピングされた配列リードの定量を行う工程;
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が変異を含むかどうかを決定する工程;および
    前記計算装置によって、前記試料が前記変異を含むかどうかの決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
    を含む処理を行うための命令を含む、メモリ
    を含む、システム。
  12. 前記変異足場が、前記複合バリアント配列、前記野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;
    前記さらなる人為的な遺伝的変動が、前記複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;
    前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に前記配列リードをマッピングする工程が、前記さらなる人為的な遺伝的変動に基づいて、前記配列リードと前記複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および
    前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程が、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記さらなる人為的な遺伝的変動をカウントすることを含む、請求項11に記載のシステム。
  13. 前記処理が、前記複合遺伝子バリアントに特徴的な変異を有する前記配列リードのみが前記変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いて前記アラインメントアルゴリズムをパラメータ化する工程をさらに含む、請求項11に記載のシステム。
  14. 前記処理が、
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;
    前記計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するという結果を出力する工程;および
    前記試料中の前記複合遺伝子バリアントの存在にしたがって、前記試料に関連する被験体に処置を開始する工程
    をさらに含む、請求項11に記載のシステム。
  15. 前記複合バリアント配列が2つの変異を有し、前記処理が、
    前記変異足場中のマッチング配列への前記配列リードのマッピングに基づいて、前記2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および
    計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むかどうか、および前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
    をさらに含む、請求項11に記載の方法。
  16. 非一時的な機械可読記憶媒体において明白に具体化されるコンピュータプログラム製品であって、1またはそれを超えるデータプロセッサに以下を含む動作を実施させるように構成された命令を含む、コンピュータプログラム製品:
    ゲノムの標的領域内に前記複合遺伝子バリアントに特徴的な変異を含む配列を含む変異足場を得る工程;
    前記ゲノムの標的領域内に野生型配列を含む野生型足場を得る工程;
    大規模並行型シーケンサーによって、配列リードを生成する標的領域について試料由来の核酸を配列決定する工程;
    アラインメントアルゴリズムを使用した計算装置によって、前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に、前記配列リードをマッピングする工程;
    前記アラインメントアルゴリズムを使用した前記計算装置によって、前記野生型足場中に前記野生型配列を含むマッチング配列に、前記配列リードをマッピングする工程;
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記野生型配列を含む配列にマッピングされた配列リードをカウントする工程であって、ここで、前記カウントによって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量および前記野生型配列を含む配列にマッピングされた配列リードの定量を行う工程;
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が変異を含むかどうかを決定する工程;および
    前記計算装置によって、前記試料が前記変異を含むかどうかの決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程。
  17. 前記変異足場が、前記複合バリアント配列、前記野生型配列のいずれにも見出されないさらなる人為的な遺伝的変動をさらに含む;
    前記さらなる人為的な遺伝的変動が、前記複合遺伝子バリアントに特徴的な変異の存在および/またはフェージングのためのマーカーとして役立つ;
    前記変異足場中の前記複合遺伝子バリアント配列を含むマッチング配列に前記配列リードをマッピングする工程が、前記さらなる人為的な遺伝的変動に基づいて、前記配列リードと前記複合遺伝子バリアント配列を含むマッチング配列との間の予想ミスマッチを同定することを含む;および
    前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードをカウントする工程が、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードおよび前記さらなる人為的な遺伝的変動をカウントすることを含む、請求項16に記載のコンピュータプログラム製品。
  18. 前記動作が、前記複合遺伝子バリアントに特徴的な変異を有する前記配列リードのみが前記変異足場に対してアラインメントされるように、ミスマッチコストとギャップペナルティコストの相違を用いて前記アラインメントアルゴリズムをパラメータ化する工程をさらに含む、請求項16に記載のコンピュータプログラム製品。
  19. 前記動作が、
    前記計算装置によって、前記複合遺伝子バリアント配列を含む配列にマッピングされた配列リードの定量対前記野生型配列を含む配列にマッピングされた配列リードの定量に基づいて、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むことを決定する工程;
    前記計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むという決定に基づいて、前記試料に前記複合遺伝子バリアントが存在するという結果を出力する工程;および
    前記試料中の前記複合遺伝子バリアントの存在にしたがって、前記試料に関連する被験体に処置を開始する工程
    をさらに含む、請求項16に記載のコンピュータプログラム製品。
  20. 前記複合バリアント配列が、2つの変異を有し、前記動作が、
    前記変異足場中のマッチング配列への前記配列リードのマッピングに基づいて、前記2つの変異が同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかを決定する工程;および
    計算装置によって、前記試料が前記複合遺伝子バリアントに特徴的な変異を含むかどうか、および前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在するかどうかの決定に基づいて、前記2つの変異が前記同一の染色体上(シス)または異なる染色体上(トランス)に存在することに関する表記を使用して、前記試料に前記複合遺伝子バリアントが存在するか存在しないという結果を出力する工程
    をさらに含む、請求項16に記載のコンピュータプログラム製品。
JP2022570551A 2020-05-19 2021-05-19 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム Pending JP2023526441A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063026948P 2020-05-19 2020-05-19
US63/026,948 2020-05-19
PCT/US2021/033177 WO2021236784A1 (en) 2020-05-19 2021-05-19 Methods and systems for detection and phasing of complex genetic variants

Publications (1)

Publication Number Publication Date
JP2023526441A true JP2023526441A (ja) 2023-06-21

Family

ID=76444605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570551A Pending JP2023526441A (ja) 2020-05-19 2021-05-19 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム

Country Status (6)

Country Link
US (1) US20210366575A1 (ja)
EP (1) EP4154254A1 (ja)
JP (1) JP2023526441A (ja)
CN (1) CN115885346A (ja)
CA (1) CA3184268A1 (ja)
WO (1) WO2021236784A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023230279A1 (en) * 2022-05-26 2023-11-30 Element Biosciences, Inc. Quality measurement of base calling in next generation sequencing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11725237B2 (en) * 2013-12-05 2023-08-15 The Broad Institute Inc. Polymorphic gene typing and somatic change detection using sequencing data
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体

Also Published As

Publication number Publication date
US20210366575A1 (en) 2021-11-25
EP4154254A1 (en) 2023-03-29
CA3184268A1 (en) 2021-11-25
WO2021236784A1 (en) 2021-11-25
CN115885346A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
KR102384620B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
KR102665592B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
KR102299305B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
US20180119230A1 (en) Systems and methods for analyzing nucleic acid
JP5519500B2 (ja) 核酸配列の不均衡性の決定
US20120003636A1 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
Corrales et al. High-throughput molecular diagnosis of von Willebrand disease by next generation sequencing methods
WO2017156290A1 (en) A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing
US20160319347A1 (en) Systems and methods for detection of genomic variants
TWI675918B (zh) 基於單倍型之通用非侵入性單基因疾病產前檢測
Justino et al. Comprehensive massive parallel DNA sequencing strategy for the genetic diagnosis of the neuro-cardio-facio-cutaneous syndromes
Akbari et al. Parent-of-origin detection and chromosome-scale haplotyping using long-read DNA methylation sequencing and Strand-seq
Xie et al. Mitochondrial genome sequence analysis: a custom bioinformatics pipeline substantially improves Affymetrix MitoChip v2. 0 call rate and accuracy
JP2021101629A (ja) ゲノム解析および遺伝子解析用のシステム並びに方法
US20210366575A1 (en) Methods and systems for detection and phasing of complex genetic variants
EP3588506B1 (en) Systems and methods for genomic and genetic analysis
Zeng et al. A customized scaffolds approach for the detection and phasing of complex variants by next-generation sequencing
Pastor Analysis of Genomic Structures Involved in 22q Deletion Syndrome
이선호 New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240312