JP2018502602A - 相同性の高い領域において遺伝子型を決定する方法 - Google Patents

相同性の高い領域において遺伝子型を決定する方法 Download PDF

Info

Publication number
JP2018502602A
JP2018502602A JP2017553050A JP2017553050A JP2018502602A JP 2018502602 A JP2018502602 A JP 2018502602A JP 2017553050 A JP2017553050 A JP 2017553050A JP 2017553050 A JP2017553050 A JP 2017553050A JP 2018502602 A JP2018502602 A JP 2018502602A
Authority
JP
Japan
Prior art keywords
gene
pseudogene
sequence
copy number
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017553050A
Other languages
English (en)
Other versions
JP2018502602A5 (ja
Inventor
マジー,デール・エドワード
ロバートソン,アレクサンダー・デ・ジョン
エヴァンス,エリック・アンドリュー
マグワイア,ジャレッド・ロバート
Original Assignee
カウンシル,インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カウンシル,インコーポレーテッド filed Critical カウンシル,インコーポレーテッド
Publication of JP2018502602A publication Critical patent/JP2018502602A/ja
Publication of JP2018502602A5 publication Critical patent/JP2018502602A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本明細書中に記載されているのは、対象のキャリア状態または遺伝子型を決定するための方法である。本明細書中に記載されているのは、ゲノム内の他の配列に対する相同性が極めて高い配列を有するゲノム遺伝子座の構造(例えば遺伝子型)を解明するために実験アプローチ及び計算アプローチを組合せた方法である。詳細には、対象におけるキャリア状態及び/または遺伝子のコピー数の決定には次世代シーケンシングが利用され、ここでこの遺伝子は対応する相同性の高い相同体、例えば遺伝子または偽遺伝子を有している。本明細書中に同様に記載されているのは、このような決定のためのコンピュータ援用方法である。【選択図】図1

Description

以下の開示は、概して、遺伝子型の決定、より具体的には、対応する相同性の高い相同体を有する1つの遺伝子と結びつけられる遺伝子型の決定に関する。
多くの疾病が、突然変異により不活性にされた遺伝子の結果としてもたらされる。したがって、このような突然変異を同定することが、臨床遺伝医学の基本的な最終目的である。多くの遺伝子について、これらの突然変異は、次世代シーケンシング(NGS)データから比較的容易に発見できる。しかしながら、いくつかの重要かつ流行している疾患の対象である遺伝子サブセットについては、不活性化された遺伝子がゲノムの他の相同性部分により効果的に隠されていることから、これらの遺伝子を同定しその数を計数するのは、困難である。
他の(典型的に機能不全の)領域との相同性が高いゲノム領域の構造及び内容を解明するのは、たとえ高度なNGSツールを用いても、並外れて困難なことである。残念なことに、これらの技術的障害は、これらの困難な領域の多くに疾病が関与していることから、極めて、解決がむずかしい。実際、これらの領域は機能不全領域と高い相同性を有することから、遺伝子の機能的コピーの数に影響を及ぼし得る遺伝子と相同体との間の頻繁な再配置が導かれる。
したがって、相同な相同体を有する1つの遺伝子に関する対象の遺伝子型及び/またはキャリア状態を検出し決定する必要性がなおも存在する。
相同性が極めて高い遺伝子及び相応する相同体についての遺伝子型の決定を可能にする現行の技術は、時間及び労働集約的でかつコストが高く、そのため、広範な臨床的用途のためには好適でない。
ここで開示される方法は、手頃でかつ高スループットで実践することができる。したがって、時間、労働及び費用の有意な節約をすることができる。さらに、この方法は、遺伝子またはその相同体に対するNGSリードの一意的アライメントが難しくなっている領域内の構造/コピー数/遺伝子型を解明するという問題を克服するものである。重要なことに、これらの難しくなっている「非常に相同性の高い」領域は、(1)所与の実験におけるNGSリードの長さ、及び(2)例えばBWAなどのアライメントソフトウェアにより可能にされる不整合量という2つの特徴に基づくものである。
一態様において、本明細書中では、非常に相同性が高い相同体を有する問題の遺伝子に関して一個体のゲノム構造(すなわち遺伝子型)を決定するための方法が提供される。
一実施形態において、問題の遺伝子及びその相同体についての配列情報は、エクソンに向けられたプライマを用いている。一部の実施形態において、配列情報は、問題の遺伝子及び/または相同体のイントロンからである。一部の実施形態において、配列情報は、遺伝子間領域からである。
さらなる実施形態において、配列情報は次世代シーケンシング(NGS)によって生成される。一部の実施形態において、NGSは、高深度全ゲノムショットガンシーケンシング(すなわち濃縮のためのプローブの使用無し)である。他の実施形態において、NGSは、ターゲットシーケンシング、例えばハイブリッド捕捉技術、マルチプレックスアンプリコン濃縮、またはシーケンシング反応のためにゲノムの特異的領域を濃縮する他の任意の手段である。一部の実施形態において、シーケンシングは、多重検定において行なわれる。
一実施形態において、遺伝子はSMN1であり、偽遺伝子はSMN2である。一実施形態において、SMN1の改変されたコピー数の存在は、対象が脊髄性筋委縮症(SMA)のキャリアであり得ることを標示している。
別の実施形態において、遺伝子はCYP21A2であり、偽遺伝子はCYP21A1Pである。一実施形態において、CYP21A2の改変されたコピー数の存在は、対象が先天性副腎皮質過形成(CAH)のキャリアであり得ることを標示している。
一実施形態において、遺伝子はHBA1であり、相同体はHBA2(またはその逆)である。一実施形態において、HBA1またはHBA2のいずれかの改変されたコピー数の存在は、対象がアルファ地中海貧血のキャリアであり得ることを標示している。
さらなる実施形態において、遺伝子はGBAであり、偽遺伝子はGBAPである。一実施形態において、GBAの改変されたコピー数の存在は、対象がゴーシェ病のキャリアであり得ることを標示している。
一実施形態において、遺伝子はPMS2であり、偽遺伝子はPMS2CLかまたは複数の他の偽遺伝子のうちの1つかのいずれかである。2015年12月の時点で15個の偽遺伝子が存在していた。偽遺伝子は、PMS2CLとして公知の13個の偽遺伝子から選択され得るが、これらに限定されず、13個の偽遺伝子のうちの他の12個は、PMS2P1からPMS2P12まで付番される。一実施形態において、改変されたコピー数及び/または遺伝子及び偽遺伝子の配向を改変する逆位(例えば遺伝子と偽遺伝子の部分を融合しこうして遺伝子の機能を脅かす逆位)の存在は、対象のリンチ症候群のリスクが増大していることを標示し得る。
一実施形態において、遺伝子は、複数の偽遺伝子を有するCHEK2である。2014年12月の時点で、7個の偽遺伝子が存在していた。偽遺伝子は、キュレーテッドデータベース内で列挙されたCHEK2偽遺伝子から選択され得るが、これらに限定されない。一実施形態において、偽遺伝子との組換えから発生する突然変異、例えば偽遺伝子由来のフレームシフト突然変異の存在は、対象において、なかでも乳癌のリスクが増大していることを標示し得る。当該技術分野においては、7つの偽遺伝子のうちの1つだけが命名されていること、そしてリスクが主として1つの突然変異、1100delCと結びつけられるものであることは周知である。しかしながら、他の突然変異も同様に、疾病のリスクに寄与する。患者には、リーフラウメニ症候群及び他の遺伝性癌のリスクがある。
一態様においては、本明細書中に記載されている方法を実施するための命令を実行するように構成されたコンピュータシステムが提供されている。
本発明の他の目的、特徴及び利点は、以下の詳細な説明から明らかになる。ただし、この詳細な説明から当業者には本発明の範囲及び精神の枠内に入るさまざまな変更及び修正が明らかになるものであるため、詳細な説明及び具体的実施例は、本発明の好ましい実施形態を標示しているものの、単に例示のために提供されているにすぎないということを理解すべきである。
遺伝子及びその相同体(例えば偽遺伝子の場合の機能不全相同体)のさまざまなゲノム構造を例示する。「正常な」試料中には、各々遺伝子及びその相同体の2つのコピーが存在する。相同体を伴う多くの遺伝子について(実際、ゴーシェ病、脊髄性筋萎縮症(「SMA」)、先天性副腎皮質過形成(「CAH」)、及びアルファ地中海貧血の基礎にある遺伝子ならびにさまざまな癌に関係づけられる複数の遺伝子について)、遺伝子と相同体は、染色体上で互いに比較的近傍にある。遺伝子及び/または相同体の「欠失または複製」を受けた染色体のいくつかの例が示されている。遺伝子と相同体の間の組換えは、一部「遺伝子」であり一部「相同体」である「融合」遺伝子を生み出すことができる。最終的に、遺伝子と相同体の間の配列の「相互交換」が比較的頻繁に起こる。 本明細書中に記載の方法の流れ図である。 本発明のさまざまな実施形態が動作し得る例示的システム及び環境を示す。 例示的計算システムを示す。 SMN1とSMN2のコピー数(「CN」)のグラフである。10,000個の試料について、我々は、本明細書中に記載のシーケンシングデータ及びCN解析を使用して、SMN1及びSMN2の試料のCNを計算し、次にこれらの値を散布図内でそれぞれx及びy座標として使用した。CN(SMN1)、すなわち各試料のSMN1のコピー数は、直交qPCRベースの検定によって立証された。すなわち、この検定により1、2または3つのコピーを有すると決定された試料は、それぞれ円、三角形及び正方形で標示される。CN(SMN1)=1及びCN(SMN1)=2を伴う点の間のシーケンシングデータ内に非常に明確な分離が存在することに留意されたい。実際、CN(SMN1)のカットオフ=1.4を用いてSMN1のコピーを1つまたは2つのいずれかの数を有するものとして試料を分類した場合、我々のシーケンシングベースのCN解析は、いかなる偽陽性も偽陰性も生み出さない。他の特筆すべき特徴またはプロットとしては、以下のものが含まれる:(1)最高の点密度は、遺伝子座の正常な配置である(2,2)近くにある:(2)しかしながら、多くの試料が(2,2)から遠く離れており、これはSMN1とSMN2の間の高頻度の変換/欠失/複製と一致する。 GBA及びGBAPについての2つのコピー数グラフを示す。2つの単一の患者の試料について、GBA及びその相同体/偽遺伝子GBAPのCN値が、5’から3’まで(左から右へ)配置された9個の異なる部位においてプロットされている。上の試料(A)は、GBA及びGBAPの両方の2つのコピーを有することから正常である。しかしながら、下の試料(B)は、「相互交換」事象を受け、ここで1つのGBAPコピーの3’末端は、GBA由来の配列を獲得している。 HBA1及びHBA2についてのコピー数グラフである。プロットは、HBA2及びHBA1を取り囲みこれらを含む部域内の、48個の患者試料についてのCN値を示す。太線は、図の右側のほぼ全体にわたるその信号降下のため、単一の染色体の大きなセグメントが欠失している単一の試料を示す。予期した通り、大部分の試料は、CN=2を有する。3つの試料は、Z1領域とZ2領域の間に発生する短い欠失を有する。 CYP21A2遺伝子とその相同体CYP21A1P内で使用される各プローブについてのコピー数を示すグラフである。プロットは、(CAHに影響を及ぼす)遺伝子CYP21A2(A;左)及びその偽遺伝子CYP21A1P(B;右)内における、48個の患者試料についてのCN値を示す。x軸上の各位置は、5’から3’まで配置された遺伝子内の異なる部位である。3つの太いトレースは、左側の遺伝子プロット内の約1及び約0というそれらのCN値のため、遺伝子のコピーの1つを切除する融合事象を受けたことが分かっている試料である。CYP21A2及びCYP21A1Pは、推移全体を通して多大な相互交換/融合/複製を受けており、このような理由から、上述のプロットにおけるそれらのトレースは、ゴーシェ病(図6)及びアルファ地中海貧血(図7)についての先行図におけるCNトレースに比べてさらにギザギザになっている。本明細書中に記載のCN解析方法の主要な最終目的の1つが、機能的遺伝子コピー(すなわちこの場合はCYP21A2)の数を決定したい、ということにあるという点に留意されたい。したがって、我々は、第1に5’末端の近傍の部位を検査し、CN(CYP21A2)を解明するためにその平均値を使用する。次に、我々は、どんなタイプの再構成が発生したかを判定するためにトレース全体(すなわち3’末端を含む)を考慮する。 試料データがどのようにして、生のリード計数値からコピー数シフトについて解釈され得る値へと処理された状態となるのかを例示する図である。ここで示されているのは、本明細書中で以下に説明されている6個のステップ及び5個の例示的表(a、b、c、d及びeと呼称される)である。本特許の複製には少なくとも1つのカラー図面が入っている。
カラー図面(複数可)を伴う本特許または特許公報のファイルは、要請を行い必要な費用を支払った時点で特許庁から入手可能である。
本発明についてここで、以下の定義及び実施例を用いて、単なる参考として詳述する。本明細書中で言及されている特許及び特許公報中で開示される全ての配列を含めて、全ての特許及び特許公報は、明示的に参照により組込まれる。
本明細書中に別段の定義のない限り、本明細書中で使用される全ての技術的及び科学的用語は、本発明が属する技術分野の当業者により一般に理解されるものと同じ意味を有する。Singletonら、Dictionary of Microbiology and Molecular Biology、第2版、John Wiley and Sons、New York (1994)、およびHale & Marham、The Harper Collins Dictionary of Biology、Harper Perennial、NY (1991)は、当業者に対し、本発明において使用される用語の多くの一般的辞書を提供している。本明細書中に記載のものと同様のまたは同等のあらゆる方法及び材料を本発明の実践または試験において使用することができるが、好ましい方法及び材料が説明されている。実施者らは、当該技術分野の定義または用語について、特にSambrookら、1989、およびAusubel FMら、1993を参照されたい。記載されている特定の方法、プロトコル及び試薬は変動し得ることから、本発明はこれらに限定されないということを理解すべきである。
数値範囲は、その範囲を定義する数字を包括するものである。「約」なる用語は、本明細書において、1つの値のプラスマイナス10パーセント(10%)を意味するものとして使用される。例えば、「約100」というのは、90〜110の間の任意の数を意味する。
別段の指示がない限り、核酸は、5’から3’の配向で左から右に記され、アミノ酸配列は、それぞれアミノからカルボキシへの配向で左から右へ記される。
本明細書中で提供されている見出しは、明細書全体を参照することにより得ることのできる本発明のさまざまな態様または実施形態の限定ではない。したがって、直下で定義する用語は、明細書全体を参照することによって、より完全に定義づけされる。
定義
本明細書中で使用される「精製された」なる用語は、1つの分子が、当該分子を含有する試料の重量の少なくとも95%または少なくとも98%の濃度でこの試料中に存在することを意味する。
「単離された」分子とは、例えば天然の環境内で元来結びつけられている少なくとも1つの他の分子から分離されている核酸分子のことである。単離された核酸分子は、通常該核酸分子を発現する細胞が格納する核酸分子を含むが、核酸分子は染色体外に存在するか、またはその染色体位置とは異なる染色体位置に存在する。
「相同性%」なる用語は、本明細書において、「同一性%」なる用語と互換的に使用され、配列アライメントプログラムを用いて整列された場合に、発明力あるポリペプチドのいずれか1つをコードする核酸配列または発明力あるポリペプチドのアミノ酸配列の間の核酸またはアミノ酸配列の同一性のレベルを意味する。核酸の場合、この用語は同様に、イントロン及び/または遺伝子間領域にも適用される。
例えば、本明細書中で使用される通り、80%の相同性は、明確なアルゴリズムによって決定される80%の配列同一性と同じことを意味し、したがって、所与の配列の相同体は、所与の配列の長さ全体にわたり80%超の配列同一性を有する。配列同一性の例示的レベルは、所与の配列、例えば本明細書中に記載されている発明力あるポリペプチドのいずれか1つについてのコーディング配列に対する、80、85、90、95、98%またはそれ以上の配列同一性を含むが、これらに限定されない。
2つの配列間の同一性を決定するために使用可能な例示的コンピュータプログラムとしては、一連のBLASTプログラム、例えばインターネット上で公的に入手可能なBLASTN、BLASTX、及びTBLASTX、BLASTP及びTBLASTN、及びBLATが含まれるが、これに限定されない。Altschulら、1990及びAltschulら、1997も同様に参照のこと。
GenBank DNA Sequences及び他の公開データベース内の核酸配列に関連する所与の核酸配列を評価する場合、配列検索は、典型的にBLASTNプログラムを用いて実施される。BLASTXプログラムは、GenBank Protein Sequences及び他の公開データベース内のアミノ酸配列に対して全てのリード枠内で翻訳された核酸配列を検索するために、選好される。BLASTN及びBLASTXは両方共、11.0のオープンギャップペナルティ及び1.0の拡張ギャップペナルティのデフォルトパラメータを用いて実行され、BLOSUM−62マトリクスを利用する(例えばAltschul、S.F.ら、Nucleic Acids Res.25:3389〜3402、1997)を参照のこと)。
2つ以上の配列間の「同一性%」を決定するための選択された配列の好ましいアライメントは、例えば10.0のオープンギャップペナルティ、0.1の拡張ギャップペナルティ及びBLOSUM30類似性マトリクスを含めたデフォルトパラメータで動作させられるMacVectorバージョン13.0.7内のCLUSTAL−Wプログラムなどを用いて行なわれる。
本明細書中で使用される「極めて相同性の高い」なる用語は、遺伝子と対応する相同体との間の相同性が、NGSリード長に対応する長さをもつ領域全体にわたって90%超であることを意味する。したがって、遺伝子及びその相同体は、遺伝子内の任意の領域が相同体に対して極めて高い相同性を有する場合、「極めて相同性の高い」ものとして言及される。NGSリード長は、30nt〜400nt、50nt〜250nt、50nt〜150nt、または100nt〜200ntの範囲内にあり得る。重要なことに、1つの遺伝子が相同体を有すると称されるためには、遺伝子の配列全体が「極めて相同性の高い」ものである必要はなく、その遺伝子内の1つの領域が極めて相同性の高いものであることしか求められない。
本明細書中で使用される「相同体」なる用語は、対象のゲノム内の他の場所にある問題の遺伝子と同一であるかまたはほぼ同一であるDNA配列を意味する。相同体は、別の遺伝子、「偽遺伝子」または遺伝子の一部ではない配列セグメントのいずれかであり得る。
本明細書中で使用される「突然変異」なる用語は、個体間、または個体の配列と基準配列との間の変異を非限定的に含めた、自然変異及び遺伝性配列変異の両方を意味する。例示的突然変異には、SNP、インデル、コピー数変異体、逆位、転座、染色体融合などが含まれるが、これに限定されない。
本明細書中で使用される偽遺伝子とは、DNA配列内の1つの遺伝子に酷似するものの、それを機能不全にする少なくとも1つの変化を有するDNA配列である。この変化は、単一の残基突然変異であり得る。この変化は、スプライス変異体を結果としてもたらし得る。この変化は、翻訳の早期終結を結果としてもたらし得る。偽遺伝子は、機能的遺伝子の機能不全相対物である。偽遺伝子は、公知の遺伝子(すなわち問題の遺伝子)に対する相同性と非機能性の組合せによって特徴づけられる。
遺伝子についての偽遺伝子の数は、本明細書中で列挙されたものに限定されない。偽遺伝子は増々認知されている。したがって、当業者であれば、1つの配列が偽遺伝子であるか否かを、配列の相同性に基づいてまたは例えばGeneCards(genecards.org)、pseudogenes.orgなどのキュレーテッドデータベースを参照することによって決定することができると考えられる。
本明細書中で使用されている「問題の遺伝子」とは、機能的コピーの数を決定することが望まれている遺伝子のことである。概して、問題の遺伝子は、問題の遺伝子のコピーを各々有する2つの染色体に起因して2つの機能的コピーを有する。「問題の遺伝子」及び「遺伝子」なる用語は、本明細書において互換的に使用されてよい。
プロセス
問題の領域に由来する配列は、可能な場合、ハイブリッド捕捉プローブまたはPCRプライマを用いて濃縮されており、これらのプローブまたはプライマは、捕捉されシーケンシングされたフラグメントが、遺伝子をその相同体(複数可)と識別する少なくとも1つの配列を格納するような形で設計されなければならない。例えば、ハイブリッド捕捉プローブは、遺伝子と相同体(複数可)/偽遺伝子(複数可)の間で異なるものであるいくつかの塩基(「diff塩基」)に隣接してアニーリングするように設計され得る。このような識別配列が希少である場合、各々の特定のプローブの配列に固有のバイアス効果を削減するために、識別可能なフラグメントを捕捉するのに多数のプローブを使用しなければならない。ターゲットシーケンシングを達成するための手段としてのハイブリッド捕捉の代替として、アンプリコンシーケンシングを使用することができる。ターゲットシーケンシングの代替として、高深度全ゲノムシーケンシングを使用することができる。NGS、マイクロアレイまたは他の任意の高スループットの定量的分子生物学技術のいずれであれ、特定のゲノム領域の用量を反映する任意の高スループット定量的データを使用してよい。
遺伝子または相同体由来の塩基を担持するNGS配列リードの存在度は、正常(CN=2)と突然変異体個体(CN≠2)との間の識別を可能にする。しかしながら、2つの同一の遺伝子の正常な組合せCNが4であり、いずれの遺伝子内の欠失も3以下の集合的CNを導く場合、HBA1及びHBA2の場合と同様、遺伝子を相同体と識別できない配列リードからでさえ、追加の有用な情報に到達することができる。原則として、本明細書中に記載のCN解析は、高深度全ゲノムショットガンシーケンシングにも適用可能であると考えられる(すなわち濃縮のためのプローブの使用無し)。
大まかに言うと、一実施例において、1領域についてのコールを生成するために、図2中でプロセス10として例示されている以下のプロセスが行なわれる。最初に、12において、問題の配列を得る。例えばコールの領域と(または決定的にはその相同体(複数可)の領域(複数可)において)重複するBamファイルから、リードを収集することができる。これらのリードを次に、それらに結びつけられたソフトクリッピング情報を用いて、クリップすることができる。アライナーからの捕足情報、例えば塩基−塩基アライメント情報を次に廃棄することができ、リードは単に塩基の配列となる。(一部の実施例においては、マッピング品質に基づくフィルタリングを任意に行なうことができる)。
識別を行なう塩基(複数可)の存在に基づく遺伝子または相同体(複数可)にリードをパーティショニングする。このパーティショニングプロセスにおいて活用される識別塩基(複数可)は、特定の問題の遺伝子によって左右される。さらに、パーティショニングは、ここでも特定の利用分野に基づいて、所与のリードにおいて識別塩基のサブセットのみを使用し得る。ハイブリッド捕捉プローブ配列自体がシーケンシングされたフラグメントの一部となる一実施形態において、ハイブリッド捕捉プローブは、識別塩基が対合末端リードの1つの末端の終端またはその近くに来るように設計される。例えば、このような場合には、ハイブリッド捕捉プローブは例えば39塩基の長さを有するが、シーケンサーは捕捉されたフラグメントから40個の塩基を読み取る。プローブは、40番目の塩基が識別塩基であり、こうして全リード(すなわち対合末端リードの両方の末端)を40位の塩基に基づいて遺伝子または相同体(複数可)にパーティショニングすることが可能になる。上述の実施例における精確な数字(すなわち39及び40)は、変化し得、かつ類似の結果を生み出すことができる。原則として、プローブは、10bpという短いものでも、または1000bpといった長いものでもあり得るが、20bp〜100bpの範囲内の長さが最も一般的である。以上のもののようにプローブがシーケンシングされたフラグメントの一部となっている実施形態においては、シーケンサーは、少なくとも1bpだけプローブの長さを超えて読み取らなければならない。しかしながら、捕捉されたフラグメントが単独で、リードを遺伝子または相同体に適切にパーティショニングするのに充分な識別塩基を格納している実施形態においては、シーケンシングは必ずしもプローブの長さを超えて拡張する必要はない。
実験データの例示的処理が、図9に示されている。ここで示されているのは、(1つのイルミナフローセルを用いた)単一の実験に由来するデータを伴う表からの抜粋である。各行は1つの試料である。典型的に、単一の実験において48または96個の試料が処理される(すなわち試験される)(すなわち、「Sample x」=「Sample96」)が、解析は、より多くのまたは少ない試料についても有効である。解析は、特に疾患に結びつけられる遺伝子において、コピー数の突然変異が比較的稀であるという事実を、強力に活用する。こうして、大部分の試料は、各部位において野生型コピー数(「CN」)(すなわちCN=2)を有することが予期される。
図9、表aに示されている通り、部位は、試験部位(例えば、「TS1」、「TS2」など)と対照部位(例えば「CS1」、「CS2」など)にパーティショニングされ得る。試験部位(TS)対対照部位(CS)の構文解析は、検定に左右される。例えば、ゴーシェ病の検定においては、TS’は、GBAまたはGBAP内の部位であり、CS’は、GBAでもGBAPでもないデータがあるゲノム内の任意の部位を含む。別の実施例として、SMA試験の場合、2つのTS部位(SMN1についてのものとSMN2についてのもの)しか存在しない。典型的には、各実験について数百のCS’が存在する。CN解析が孤立して行なわれる場合、少なくとも10個のCS’を使用しなければならず、50個以上が好ましい(基本的に、図9、表bで見ていくように、中央値のロバストな測定を得るために充分な部位が必要である)。
次のステップは、図9、表bに描かれており、ここでは、CS生リードについての中央値が計算されている。表中の各セルが、整数値の生リードかまたは、リード数の調整がGCコンテンツに起因するシーケンシングバイアスなどの要因を考慮する場合には調整されたリードの浮動点数、のいずれかを格納し得る、という点に留意されたい。これらの値がCN=2を有するというのが我々の当初の仮定であることから、これがCS’を関与させることにすぎないということに留意されたい。この時点でTS’を含み入れることで、行の試料がCN突然変異を有し、TS’がCS’の数を上回る場合、所与の行の中央値は歪曲され得る。算術平均(average)を表わすために平均(mean)を使用することとは異なり、中央値は、シーケンシングデータ内に広く存在する異常リードに対しロバストである。しかしながら、中央値の優れた表現を得るためには少なくとも10個のCS’を有していなければならない。このステップは、以下の等式によって効率的に行なわれる。
式中、ri、jは、部位jにおける試料i内の生リードの数である。中央値は、CS部位のセット内にある全ての部位jにわたり評価される。xi、jは、部位jにおける試料iについての「試料正規化深度値」であり、xi、jは、CS及びTSの両方において全ての部位jについて計算される。
図9中に提供されている通り、表a中の各セルについての値は、表b中のセルの列についての対応する値により除され、商は表cに書込まれる。ここで一つの行を横断する算術平均値は約1である。しかしながら、我々のデータ解釈に間違いを発生させ得るデータ収集における部位特異的バイアスが存在することから、さらなる正規化が必要とされる。例えば、TSx列内の値がTS1またはTS2内の値よりもいかに系統的に低いものであるかに留意されたい。TSxにおけるこの降下が全ての試料のCN変化を反映しているということは信じ難いことであるため(特に、CN変動が稀であり、したがってこのような変動が全ての試料内にあるとは思えないと予期されることから)、この系統的バイアスを除去するために、さらなる正規化が行なわれる(図9、表b中)。
正規化は、各列を下方に中央値を計算することで始まる。これは、図9、表dに示されているように、TS及びCSの両方の列について行なわれる。その後、図9、表eに示されている通り、表c中の各セルについての値を、表d中のセルの列についての対応する値で除し、次に、商に2を乗じ、最後に積を表eに書込む。算術平均による除算は1前後を中心にする正規化値を提供することから、商を2でスケーリングするが、この正規化値は、生物学的に正常な2というCNに対応することが分かっている。このステップは、以下の等式により効率良く行なわれる:
式中、xi、jは、以上からの「試料正規化深度値」である。中央値は、部位jについて全ての試料にわたり計算される。CNi、jは、試料i内の部位jのコピー数の十進近似である。ゲノム中の配列のコピー数は、整数値であることから、各CNi、jをその最も近い整数値に四捨五入することができ、コールの信頼性を、本明細書中に記載の通りに計算することができる。
直ぐ上の等式で表わされた最終正規化ステップは、CNが極めて可変的である(すなわち小さい多数派の、さらには少数派の試料でさえCN=2を有する)TS’のために修正可能であるという点に留意されたい。例えば、図8の右側プロットにおいて、大部分の試料は、TS’「WL5、B08」及び「WL5、B09」について(CN=2ではなく)CN=0を有する。我々は、SMA(図5)及びCAH(図8)の解析において、このようなTS’に遭遇した。これらの困難なTS’におけるCN値は、経験的に観察されたデータに対して(経験的に予期される整数CN値、例えば0、1、2及び3でのモードを用いて)マルチモーダルガウス分布の最良の最小二乗偏差適合を発見することによって決定され得る。このとき、各試料についてのCN値は、最良適合分布の整数モードまでの最短距離を発見することによって決定することができる。
最終ステップは、データの解釈である。各疾病(先天性副腎皮質過形成(CAH)、脊髄性筋萎縮症(SMA)、ゴーシェ病及びアルファ地中海貧血)について、我々は、CN信号が2から偏向する隣接するTS’を探している。図9中の「試料1」が、2を中心とするCN値を有する他の試料と異なり、1前後でほとんど変わらないCN値を有する、という点に留意されたい。これらのデータは、CNをTS’において2から1へと低下させたCN突然変異を試料1が有していることを示唆している。CS’における試料1のCN値が約2であり、解析が妥当であった(すなわち信じがたいことであるが、試料がゲノムの至る所でCN突然変異を有するという主張を行なっていない)ことを示唆しているのを知るのは、心強いものである。
本明細書中に記載のCN解析が、相同体を伴う遺伝子内の臨床的に関連性のある他のタイプの突然変異を発見するための重要な上流側ステップであることは、注目に値する。例えば、CN変異体(図1に図示)に加えて、単一ヌクレオチド多型(SNP)も同様に、遺伝子を破壊し、機能不全にし得る。SNPを認識するための標準的ソフトウェアは、パラメータとしてCNを使用し、ここで、SNPを担持するリードの予期される分数は1/CNである。ゲノムの大部分はCN=2を有することから、SNP発見ソフトウェアは、リードの2分の1が1つの塩基(例えばC)を格納し、もう一方の2分の1が異なる塩基(例えばT)を有する場合、デフォルトでSNPとして部位を同定する。しかしながら、CN変動を伴う領域については、SNPを担持するリードの予期された分数は、CN=1について1、CN=3については1/3等々であり得る。危ういことに、本明細書中に記載のもののようなCN解析の不在下では、SNPとCN=3の両方を有する対象は、データ内のその表現(すなわち1/3)が単純に予期される分数(すなわち1/2)より小さいことから、同定されたSNPを有さない可能性がある。したがって、本明細書中で我々が説明しているアプローチは、CNに関して遺伝子型を解明するためのみならず、SNP及び短かい挿入/欠失(「インデル」)などの他の突然変異を発見するという観点からも重要である。
我々は、所与の試験のために多数のTS’を典型的に有していることから、Zスコアを用いて、我々のCN決定における信頼性を査定することができる。使用し得るステップは以下の通りである:
a. 各々のTS列について四分位範囲(「IQR」)を計算する。IQRは、75番目と25番目のパーセンタイル値の間の差である。正規分布統計を仮定して、約1.33で除することによって、IQRを標準偏差(「SD」)に変換する。IQRは異常値に対する感応性をもたず、一方SDは異常値と共に激しくシフトし得ることから、SDの発見までの中間ステップとしてIQRを使用する。異常値に対するこの注意は、CN突然変異を伴う希少な試料が事実上各列内の異常値であることから、特に重要である。
b. 各々のTS列についてSDを入手した状態で、次に、仮説(すなわちCN=1、CN=2など)を列挙し、各々の仮説について、我々の観察したCN値が仮説的CN値からSD’何個分だけ離れているかを決定する(仮定された算術平均値からのこのSD’値は、zスコアである)。次にzスコアを確率に変換することができ、これにより我々はデータを考慮して仮説の尤度を査定することができる。各部位を独立した観察として処理して、各TSについての確率の積として、多くのTS’を横断した確率を計算する。我々の信頼性スコアは、事実上、対数オッズスコアであり、ここで最高確率仮説の確率を2番目に高い確率仮説の確率で除し、その後この商のlog10を取る。
当業者であれば、異常値に感応せずデータの標準偏差の近似を生み出す他の統計的アプローチを使用してもよいということを認識するものである。類似のコピー数の範囲(例えば大きな欠失と一貫性あるCN=1を伴う一連の隣接する部位)は、監視された形で(例えば目で、または公知のまたは仮説上の組換え部位に対するマッチングによって)、または無監視下で(例えば隠れマルコフモデルを用いて)同定可能である。
例示的アーキテクチャ及び処理環境
本明細書中に記載のシステム及びプロセスの一部の態様及び実施例が動作し得る例示的環境及びシステム。図3に示されているように、一部の実施例において、システムは、クライアントサーバーモデルにしたがって実装可能である。システムは、ユーザーデバイス102上で実行されるクライアントサイドの部分と、サーバーシステム110上で実行されるサーバーサイド部分とを含むことができる。ユーザーデバイス102は、任意の電子デバイス、例えばデスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレット型コンピュータ、PDA、携帯電話(例えばスマートホン)などを含むことができる。
ユーザーデバイス102は、インターネット、イントラネットまたは他の任意の有線または無線のパブリックネットワークまたはプライベートネットワークを含むことのできる、1つ以上のネットワーク108を通して、サーバーシステム110と通信できる。ユーザーデバイス102上の例示的システムのクライアントサイド部分は、クライアントサイドの機能性、例えばユーザー対面入力及び出力処理及びサーバーシステム110との通信を提供する。サーバーシステム110は、それぞれのユーザーデバイス102上に常駐する任意の数のクライアントのためにサーバーサイドの機能性を提供できる。さらに、サーバーシステム110は、クライアント対面I/Oインターフェース122、1つ以上の処理モジュール118、データ及びモデル記憶装置120、及び外部サービスに対するI/Oインターフェース116を含み得る1つ以上の発信者サーバー114を含むことができる。クライアント対面I/Oインターフェース122は、発信者サーバー114のためのクライアント対面入力及び出力処理を容易にすることができる。1つ以上の処理モジュール118は、本明細書中に記載の通りのさまざまな問題及び候補のスコアリングモデルを含むことができる。一部の実施例では、発信者サーバー114は、タスク完了または情報取得のためのネットワーク(複数可)108を通してテキスト・データベース、加入サービス、政府記録サービスなどの外部サービス124と通信することができる。外部サービス116のためのI/Oインターフェースは、このような通信を容易にすることができる。
サーバーシステム110は、1つ以上の独立型データ処理デバイスまたは分散型コンピュータネットワーク上で実装可能である。一部の実施例において、サーバーシステム110は、第3者サービスプロバイダ(例えば第3者クラウドサービスプロバイダ)のさまざまな仮想デバイス及び/またはサービスを利用して、サーバーシステム110の基本的な計算リソース及び/またはインフラストラクチャリソースを提供することができる。
発信者サーバー114の機能性は、クライアントサイド部分とサーバーサイド部分の両方を含むものとして図3に示されているが、一部の実施例においては、本明細書中に記載の或る種の機能(例えば、ユーザーインターフェースフィーチャ及びグラフィック要素に関するもの)を、ユーザーデバイス上にインストールされた独立型アプリケーションとして実装することができる。さらに、システムのクライアント及びサーバー部分の間の機能性の分割は、異なる実施例において変動し得る。例えば、一部の実施例において、ユーザーデバイス102上で実行されるクライアントは、ユーザー対面入力及び出力処理機能のみを提供しシステムの他の機能性を全てバックエンドサーバーに委託するシン・クライアントである。
サーバーシステム110及びクライアント102がさらに、例えば処理ユニット、メモリ(本明細書中に記載の機能の一部または全てを行なうための論理またはソフトウェアを含み得る)、及び通信インターフェースならびに他の従来のコンピュータコンポーネント(例えばキーボード/タッチスクリーンなどの入力デバイス及びディスプレーなどの出力デバイス)を有するさまざまなタイプのコンピュータデバイスのうちのいずれか1つを含み得るという点を指摘しておかなければならない。さらに、サーバーシステム110及びクライアント102の一方または両方は、概して、論理(例えばhttpウェブサーバー論理)を含むかまたは、ローカルもしくはリモートデータベースまたは他のデータ及びコンテンツソースからアクセスされてデータをフォーマティングするようにプログラミングされている。この目的で、サーバーシステム110は、情報を提示しクライアント102からの入力を受信するため、共通ゲートウェイインターフェース(CGI)プロトコル及び付随するアプリケーション(または「スクリプト」)、Java(登録商標)「サーブレット」、すなわちサーバーシステム110上で実行するJava(登録商標)のアプリケーションなどのさまざまなウェブデータインターフェース技術を利用し得る。サーバーシステム110は、本明細書中では単数で記載されているものの、実際には、本明細書中に記載の機能の一部または全てを行なうために(有線及び/または無線で)通信し協働する複数のコンピュータ、デバイス、データベース、付随するバックエンドデバイスなどを含んでいてよい。サーバーシステム110はさらに、アカウントサーバー(例えばEメールサーバー)、モバイルサーバー、メディアサーバーなどを含むかまたはこれらと通信してもよい。
さらに、本明細書中に記載の例示的方法及びシステムは、さまざまな機能を行なうための別個のサーバー及びデータベースシステムの使用を説明しているが、説明されている機能性が行なわれる限り、設計上の選択の問題として単一のデバイスまたは多数のデバイスを任意に組合せることによって、説明された機能をひき起こすように動作するソフトウェアまたはプログラミングを記憶することによって、他の実施形態を実装することが可能である、ということを指摘しておかなければならない。同様にして、説明されたデータベースシステムを、単一のデータベース、分散型データベース、分散型データベースのコレクション、オンラインもしくはオフラインバックアップまたは他の冗長性を伴うデータベースなどとして実装することも可能であり、分散型データベースまたは記憶装置ネットワーク及び付随するプロセッシングインテリジェントを含むことができる。図には描かれていないものの、サーバーシステム110(及び本明細書中に記載されている他のサーバー及びサービス)は概して、非限定的にプロセッサ、RAM、ROM、クロック、ハードウェアドライバ、付随する記憶装置などを含めた、サーバーシステム内に通常見出されるような当該技術分野において承認されている構成要素を含む(例えば、以下で論述する図4を参照のこと)。さらに、説明されている機能及び論理を、ソフトウェア、ハードウェア、ファームウェアまたはそれらの組合せの中に含み入れてもよい。
図4は、さまざまなコール及びスコアリングモデルを含め、上述のプロセスのいずれか1つを行なうように構成された例示的計算システム600を描いている。この状況において、システム600は、例えば、プロセッサ、メモリ、記憶装置及び入出力デバイス(例えばモニター、キーボード、ディスクドライブ、インターネット接続など)を含んでいてよい。しかしながら、計算システム600は、プロセスの一部のまたは全ての態様を実施するための回路または他の専用ハードウェアを含み得る。一部の動作環境内では、計算システム600は、各々がソフトウェア、ハードウェアまたはそれらのいくつかの組合せのいずれかにおいてプロセスの一部の態様を実施するように構成されている、1つ以上のユニットを含むシステムとして構成され得る。
図4は、上述のプロセスを行なうために使用されてよい一定数の構成要素を伴う計算システム600を描いている。主要システム1402は、入出力(「I/O」)セクション1406、1つ以上の中央処理ユニット(「CPU」)1408、及び関連したフラッシュメモリカード1412を有し得るメモリセクション1410を有するマザーボード1404を含む。I/Oセクション1406は、ディスプレー1424、キーボード1414、ディスク記憶ユニット1416、及びメディアドライブユニット1418に接続されている。メディアドライブユニット1418は、プログラム1422及び/またはデータを格納できるコンピュータ可読媒体1420の読出し/書込みを行なうことができる。
上述のプロセスの結果として得られた少なくともいくつかの値は、その後の使用のために保存可能である。さらに、コンピュータを用いて上述のプロセスのうちのいずれか1つを行なうための1つ以上のコンピュータプログラムを記憶(例えば明白に具体化する)ために、非一時的コンピュータ可読媒体を使用することができる。コンピュータプログラムは、例えば汎用プログラミング言語(例えばPascal、C、C++、Python、Java)または一部の専用アプリケーション特化言語で書込まれ得る。
本明細書では、さまざまな例示的実施形態が説明されている。これらの実施例に対する参照が、非限定的な意味合いで指示される。これらの実施例は、開示された技術のより広く応用可能な態様を例示するために提供されている。さまざまな変更を加えてよく、さまざまな実施形態の真の精神及び範囲から逸脱することなく、等価物を代用してもよい。さらに、特定の状況、材料、物質の組成、プロセス、目標(複数可)へのプロセス行為(複数可)またはステップ(複数可)、さまざまな実施形態の精神または範囲を適応させるために、多くの修正が行なわれ得る。さらに、当業者であれば認識するように、本明細書中に記載され例示された個別の変形形態の各々は、さまざまな実施形態の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの実施形態の特徴から容易に分離され得るまたはこれらの特徴と組合わされ得る離散的な構成要素及び特徴を有する。このような修正は全て、本開示に結びつけられたクレームの範囲内に入るものとして意図されている。
本発明は、請求されている本発明の範囲をいかなる形であれ限定するように意図されていない以下の実施例の中で、さらに詳述される。添付図は、本発明の仕様及び説明の一部を成すものとしてみなされるよう意図されている。引用されている参考文献は全て、その中に記載されている全てのものについて参照により本明細書に特定的に組込まれている。以下の実施例は、請求対象の発明を限定するのではなく例示するために提供されるものである。
実施例1
遺伝子/相同体のコピー数のコール
この実施例は、遺伝子/相同体のコピー数を決定するための方法を例示しており、図9で図式化されている。
この方法は、以下のステップを含む。
1.遺伝子または相同体(複数可)に対してBWA(NGSリードを基準ゲノムに整列させるオープン・ソース・コンピュータ・ソフトウェア・プログラム)が割当てた全てのリードをプールする。
2.リードの配列に基づいて、それぞれ(例えばSMN1とSMN2を識別するイントロン位置において)遺伝子及び相同体についての深度(すなわち整列されたリードの数)を計数する(任意には、GCバイアスを考慮に入れるためリード深度を調整する)
3.50の他の対照部位(図9中の「CS」)の近くで深度を集計する。
4.試料の50の対照深度の中央値により、各試料の遺伝子及び相同体深度を正規化する。
5.各部位の中央値による正規化によりデータをさらに調整して、十進法コピー数値(例えば1.21)を生み出す。
6.統計的信頼性査定に基づいて、コピー数コールを行なう(すなわち先行ステップからの十進値を整数値にマッピングする)。
さまざまな遺伝子/相同体の決定結果が、図5〜8に示されている。
実施例2
ハイブリッド捕捉プローブを用いたコピー数解析
この実施例は、遺伝子と相同体(複数可)または偽遺伝子(複数可)の間で異なるものである塩基に隣接してアニーリングするプローブを用いて、特定の遺伝子についての遺伝子/相同体コピー数を決定する方法を例示する。
ハイブリッド捕捉プローブは、CYP21A2とCYP21A1Pの間で異なるいくつかの塩基(「diff塩基」)に隣接してアニーリングするように設計されている。捕捉されたフラグメントの対合末端NGSは、diff塩基に基づいた遺伝子または偽遺伝子由来のものとしてのリードの指定を可能にする。CAH変異体を、SNPベースのコール及びコピー数解析という2つの戦略を用いて同定した。所与の位置におけるSNPベースのコールは、問題の位置から遠位の遺伝子由来のdiff塩基を伴うリードで構成されたパイルアップの中の有害な及び/または偽遺伝子由来の塩基を検索した。対照的に、コピー数解析は、各変異体の相対存在度を計算するために、diff塩基のリード深度を使用し、偽遺伝子由来の配列のコピー数の余剰(換言すると、遺伝子由来の配列のコピー数の激減)を伴うものとして有害な変異体を同定した。有効性確認研究において、変異体を確認するために、長距離PCR及びサンガーシーケンシングを使用した。
試験は、罹患患者からの陽性−対照試料の遺伝子型を正しく同定し、我々はそれ以降、ほぼ150,000個の臨床試料に対する有効なCAH試験を行なった。観察された変異体頻度は、罹患患者においてCYP21A2をシーケンシングした先行研究と整合性を有するものである。遺伝子及び偽遺伝子のコピー数には大きな相違点が存在する。すなわち38%の患者が、単純に各々のコピー1つを有していない少なくとも1つのハプロタイプを有する。遺伝子と偽遺伝子の間の組換えの証拠はどこにでも存在し、少なくとも83%が、偽遺伝子由来の塩基を含むCYP21A2ハプロタイプを有する。最後に、試験は、特定の希少なハプロタイプと一致する複合変異体、例えば、(1)1つがQ319X突然変異を有するCYP21A2の3つのコピー及び(2)アシュケナージ系ユダヤ人患者においては濃縮されたハプロタイプである、CYP21A1Pの2つのコピーを伴い、シスにV282L突然変異を有するCYP21A2、を同定する。
本明細書中に記載の実施例及び実施形態は、単に例示を目的としたものにすぎないこと、そしてそれに照らしたさまざまな修正または変更が当業者に示唆されており、本出願の精神及び範囲及び添付クレームの範囲内に含み入れられるべきであることが理解される。本明細書中に引用されている全ての公報、特許及び特許出願は、その全体があらゆる目的のために参照により本明細書に組込まれている。

Claims (11)

  1. 基準ゲノム配列に関するゲノム試料からの実験的シーケンシングデータから極めて相同性の高いゲノム領域の特性(例えばコピー数、向き、融合遺伝子状態及び配列)を推論するためのコンピュータ実装型方法において、
    a.ターゲットDNAシーケンシング(例えば、遺伝子または相同体のいずれかに一意的なリードを生み出すように特異的に設計されたプローブまたはプライマをそれぞれに使用するハイブリッド捕捉技術またはアンプリコンシーケンシングを用いる)または高深度非ターゲットシーケンシング(例えば全ゲノムショットガンシーケンシング)のいずれかを用いて、遺伝子及びその相同体(複数可)の両方から実験的にNGS配列のリードを獲得することと;
    b.前記ヒト基準ゲノムに対するそれらのアライメントに基づいて、遺伝子または相同体(複数可)のいずれかに対するコンピュータによるリードをパーティショニングすることと;
    c.問題の部位(例えば前記遺伝子と相同体(複数可)の両方を横断してタイル表示された部位)及び≧10(そして好ましくは≧50)の対照部位の両方においてリード数(「深度」)を計数することと;
    d.一連の正規化計算及び統計的信頼性解析を介して生リード深度を解釈可能なコピー数コールへと変換するコピー数解析を行なうことと;
    e.突然変異を同定することと;
    を含み、コピー数を確認し遺伝子由来のリードを分離する能力が、これらの変異体の適正な同定のための極めて重要なパラメータである、方法。
  2. ステップ(b)が、
    b.前記ヒト基準ゲノムに対するそのアライメント及び遺伝子を相同体(複数可)と識別する特異的塩基(複数可)の存在の両方に基づいて、遺伝子または相同体のいずれかに対するコンピュータによるリードをパーティショニングすること、
    を含む、請求項1に記載の方法。
  3. ステップ(e)が、
    e.コピー数変異体、配向を改変する逆位、遺伝子融合及び/または短配列変異体(例えばSNP及びインデル)であり得る突然変異を同定すること、
    を含む、請求項1に記載の方法。
  4. 前記遺伝子がSMN1であり、偽遺伝子がSMN2である、請求項1に記載の方法。
  5. 前記遺伝子がCYP21A2であり、前記偽遺伝子がCYP21A1Pである、請求項1に記載の方法。
  6. 前記遺伝子がHBA1であり、前記偽遺伝子がHBA2である、請求項1に記載の方法。
  7. 前記遺伝子がGBAであり、前記偽遺伝子がGBAPである、請求項1に記載の方法。
  8. 前記遺伝子がCHEK2であり、前記偽遺伝子がその偽遺伝子の少なくとも1つである、請求項1に記載の方法。
  9. 前記遺伝子がPMS2であり、前記偽遺伝子がPMS2CL及びPMS2CLの他の偽遺伝子から選択される、請求項1に記載の方法。
  10. 請求項1を実施するためのコンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体。
  11. a.1つ以上のプロセッサと;
    b.メモリと;
    c.前記メモリ内に記憶され、前記1つ以上のプロセッサにより実行されるように構成され、請求項1を実施するための命令を含む、1つ以上のプログラムと、
    を含むシステム。
JP2017553050A 2014-12-29 2015-12-28 相同性の高い領域において遺伝子型を決定する方法 Withdrawn JP2018502602A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462097139P 2014-12-29 2014-12-29
US62/097,139 2014-12-29
US201562234012P 2015-09-28 2015-09-28
US62/234,012 2015-09-28
PCT/US2015/067547 WO2016109364A1 (en) 2014-12-29 2015-12-28 Method for determining genotypes in regions of high homology

Publications (2)

Publication Number Publication Date
JP2018502602A true JP2018502602A (ja) 2018-02-01
JP2018502602A5 JP2018502602A5 (ja) 2018-09-06

Family

ID=56164482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017553050A Withdrawn JP2018502602A (ja) 2014-12-29 2015-12-28 相同性の高い領域において遺伝子型を決定する方法

Country Status (9)

Country Link
US (2) US20160188793A1 (ja)
EP (1) EP3289502A4 (ja)
JP (1) JP2018502602A (ja)
CN (1) CN107111693A (ja)
AU (1) AU2015374344A1 (ja)
CA (1) CA2970345A1 (ja)
HK (1) HK1243204A1 (ja)
IL (1) IL252793A0 (ja)
WO (1) WO2016109364A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022534071A (ja) * 2019-05-22 2022-07-27 ソウル ナショナル ユニバーシティ アールアンドディービー ファウンデーション Ngsデータを用いて遺伝型を予測する方法及び装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
US11408024B2 (en) * 2014-09-10 2022-08-09 Molecular Loop Biosciences, Inc. Methods for selectively suppressing non-target sequences
WO2016112073A1 (en) 2015-01-06 2016-07-14 Good Start Genetics, Inc. Screening for structural variants
CN106407745A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 皮肤对应的基因的突变位点的获取方法及装置
CN106503488A (zh) * 2016-11-04 2017-03-15 成都鑫云解码科技有限公司 消化系统对应的基因的突变位点的获取方法及装置
CN106407744A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 饮食与健康对应的基因的突变位点的获取方法及装置
CN106503490A (zh) * 2016-11-04 2017-03-15 成都鑫云解码科技有限公司 泌尿与生殖系统对应的基因的突变位点的获取方法及装置
CN106407748A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 内分泌与代谢系统对应的基因突变位点的获取方法及装置
CN106529209A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 免疫系统对应的基因的突变位点的获取方法及装置
CN106407747A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 肿瘤对应的基因的突变位点的获取方法及装置
CN106503489A (zh) * 2016-11-04 2017-03-15 成都鑫云解码科技有限公司 心血管系统对应的基因的突变位点的获取方法及装置
CN106407746A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 呼吸系统对应的基因的突变位点的获取方法及装置
US11993811B2 (en) * 2017-01-31 2024-05-28 Myriad Women's Health, Inc. Systems and methods for identifying and quantifying gene copy number variations
US10894978B2 (en) 2017-12-19 2021-01-19 Bioo Scientific Corporation Genetic test for detecting congenital adrenal hyperplasia
CN108251517A (zh) * 2017-12-29 2018-07-06 武汉艾德士生物科技有限公司 一种分析体系内相似序列相对数量的方法
WO2019182956A1 (en) * 2018-03-22 2019-09-26 Myriad Women's Health, Inc. Variant calling using machine learning
CN110699436B (zh) * 2018-07-10 2023-07-21 天津华大医学检验所有限公司 确定待测样本的smn1基因是否存在七号外显子缺失的方法和系统
JP7361774B2 (ja) * 2018-07-27 2023-10-16 ミリアド・ウィメンズ・ヘルス・インコーポレーテッド シーケンスリードの独立したアラインメントおよびペアリングによって高度に相同なシーケンスにおける遺伝的変異を検出するための方法
CN113724791B (zh) * 2021-09-09 2024-03-12 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN113564247B (zh) * 2021-09-24 2022-01-28 北京贝瑞和康生物技术有限公司 同时检测先天性肾上腺皮质增生症相关9个基因多种突变的引物组和试剂盒
WO2024010809A2 (en) * 2022-07-07 2024-01-11 Illumina Software, Inc. Methods and systems for detecting recombination events

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060210967A1 (en) * 2004-07-02 2006-09-21 Agan Brian K Re-sequencing pathogen microarray
US8407013B2 (en) * 2005-06-07 2013-03-26 Peter K. Rogan AB initio generation of single copy genomic probes
CN101067156A (zh) * 2007-05-18 2007-11-07 中国人民解放军第三军医大学第一附属医院 一种基于选择性探针的多重pcr方法及其应用
WO2010104608A2 (en) * 2009-03-13 2010-09-16 Life Technologies Corporation Computer implemented method for indexing reference genome
JP2013510580A (ja) * 2009-11-12 2013-03-28 エソテリックス ジェネティック ラボラトリーズ, エルエルシー 遺伝子座のコピー数の分析
US20120215463A1 (en) * 2011-02-23 2012-08-23 The Mitre Corporation Rapid Genomic Sequence Homology Assessment Scheme Based on Combinatorial-Analytic Concepts
US20130184999A1 (en) * 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
CN102952877B (zh) * 2012-08-06 2014-09-24 深圳华大基因研究院 检测α珠蛋白基因拷贝数的方法和系统
CN110872617A (zh) * 2012-09-04 2020-03-10 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CA2915626A1 (en) * 2013-06-17 2014-12-24 Verinata Health, Inc. Method for determining copy number variations in sex chromosomes
US11339435B2 (en) * 2013-10-18 2022-05-24 Molecular Loop Biosciences, Inc. Methods for copy number determination
US10851414B2 (en) * 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022534071A (ja) * 2019-05-22 2022-07-27 ソウル ナショナル ユニバーシティ アールアンドディービー ファウンデーション Ngsデータを用いて遺伝型を予測する方法及び装置

Also Published As

Publication number Publication date
US20210012859A1 (en) 2021-01-14
AU2015374344A1 (en) 2017-07-06
CA2970345A1 (en) 2016-07-07
EP3289502A4 (en) 2018-09-12
EP3289502A1 (en) 2018-03-07
WO2016109364A1 (en) 2016-07-07
CN107111693A (zh) 2017-08-29
HK1243204A1 (zh) 2018-07-06
US20160188793A1 (en) 2016-06-30
IL252793A0 (en) 2017-08-31

Similar Documents

Publication Publication Date Title
JP2018502602A (ja) 相同性の高い領域において遺伝子型を決定する方法
Sedlazeck et al. Accurate detection of complex structural variations using single-molecule sequencing
Magi et al. Characterization of MinION nanopore data for resequencing analyses
Larson et al. SomaticSniper: identification of somatic point mutations in whole genome sequencing data
JP6725481B2 (ja) 母体血漿の無侵襲的出生前分子核型分析
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
Pagel et al. Pathogenicity and functional impact of non-frameshifting insertion/deletion variation in the human genome
US11725237B2 (en) Polymorphic gene typing and somatic change detection using sequencing data
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
KR101828052B1 (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
Shigemizu et al. A practical method to detect SNVs and indels from whole genome and exome sequencing data
US20240105282A1 (en) Methods for detecting bialllic loss of function in next-generation sequencing genomic data
Vollger et al. Increased mutation and gene conversion within human segmental duplications
Sana et al. GAMES identifies and annotates mutations in next-generation sequencing projects
Xi et al. A survey of copy‐number variation detection tools based on high‐throughput sequencing data
CN106407747A (zh) 肿瘤对应的基因的突变位点的获取方法及装置
Wong et al. DNA sequencing technologies: sequencing data protocols and bioinformatics tools
Xia et al. A genome-wide approach for detecting novel insertion-deletion variants of mid-range size
JP2021101629A (ja) ゲノム解析および遺伝子解析用のシステム並びに方法
Sohn et al. Ultrafast prediction of somatic structural variations by filtering out reads matched to pan-genome k-mer sets
Watkins et al. Refphase: Multi-sample phasing reveals haplotype-specific copy number heterogeneity
Castellana et al. A solid quality-control analysis of AB SOLiD short-read sequencing data
EP3588506A1 (en) Systems and methods for genomic and genetic analysis
Kadri Advances in next-generation sequencing bioinformatics for clinical diagnostics: Taking precision oncology to the next level
Niehus et al. PopDel identifies medium-size deletions jointly in tens of thousands of genomes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180725

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20181031