JP2016540275A - 配列変異体を検出するための方法およびシステム - Google Patents

配列変異体を検出するための方法およびシステム Download PDF

Info

Publication number
JP2016540275A
JP2016540275A JP2016518122A JP2016518122A JP2016540275A JP 2016540275 A JP2016540275 A JP 2016540275A JP 2016518122 A JP2016518122 A JP 2016518122A JP 2016518122 A JP2016518122 A JP 2016518122A JP 2016540275 A JP2016540275 A JP 2016540275A
Authority
JP
Japan
Prior art keywords
construct
sequence
nucleic acid
structural variation
reference sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016518122A
Other languages
English (en)
Inventor
デニス クラル,
デニス クラル,
Original Assignee
セブン ブリッジズ ジェノミクス インコーポレイテッド
セブン ブリッジズ ジェノミクス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/041,850 external-priority patent/US9116866B2/en
Application filed by セブン ブリッジズ ジェノミクス インコーポレイテッド, セブン ブリッジズ ジェノミクス インコーポレイテッド filed Critical セブン ブリッジズ ジェノミクス インコーポレイテッド
Publication of JP2016540275A publication Critical patent/JP2016540275A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/601Detection means characterised by use of a special device being a microscope, e.g. atomic force microscopy [AFM]

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本発明は、例えば、被験体から取得した核酸試料において、遺伝子配列の構造バリエーションの近くの稀な変異体を同定するための方法を提供する。本発明は、リード(例えば、核酸リード)を、構造バリエーションを構成する基準配列構築物にアラインするための方法、構造バリエーションまたは構造バリエーションおよび稀な変異体を構成する基準配列構築物を構築するための方法、ならびにアライメント法を使用して、稀な変異体を同定するシステムをさらに含む。方法は、拡張性があり、数百万ものリードを数千もの塩基長、またはそれよりも長い構築物にアラインするのに使用することができる。

Description

関連出願
本出願は、米国特許出願第61/884,380号および14/041,850号に基づく優先権を主張し、これらの両出願は、2013年9月30日に出願され、その全体が参照によって援用される。
本発明は、配列(例えば、核酸配列)を互いにアラインして、試料(例えば、遺伝子試料)に対応する連続的な配列リードを作製するための方法およびシステムに関する。本発明は加えて、試料中の変異体を同定するための方法にも関する。
遺伝学は、分析科学から、情報科学へと進化している。科学者はかつて、どのようにして核酸を抽出および同定するのかで奮闘したが、今や、このような技法は、普通のものとなっている。次世代シーケンシング(例えば、全トランスクリプトームショットガンシーケンシング、ピロシーケンシング、イオン半導体シーケンシング、合成によるシーケンシング)は、全ゲノムを包含する数百万ものリードを、わずか数日間で作り出すことが可能である。このスループットを達成するために、NGSシーケンシングでは、併せて、より大きな遺伝情報体、例えば染色体またはゲノムを作製する、小型の核酸配列に対する大規模な並列化を使用する。遺伝子試料から出発して、核酸(例えば、DNA)を切断し、増幅し、超高速で読み取る。これらの能力を考慮して、科学者は現在、いかにして(廉価で)リードをアラインして、疾患または疾患の危険性を指し示す配列内の遺伝子座を同定するのかで奮闘している。
現在の技術水準のアライメント法では、重複するリードを基準に対してアラインして、重要な遺伝情報または構造情報の探索を可能にする配列(例えば、疾患に関するバイオマーカー)を作製するのに、膨大な計算能力を使用する。最終的に、配列アライメントの目標は、シーケンサーにより作製される核酸リードのセットを組み合わせて、被験体に由来する遺伝子試料に基づき、より長いリード(すなわち、コンティグ)、なおまたはその被験体の全ゲノムを達成することである。次世代シーケンサーからの配列データは、併せて標的配列の全体を表示する、数百万もの短い配列を含むことが多いため、リードのアラインは、複雑で計算が高価である。加えて、ランダムシーケンシングエラー(すなわち、不正確なシーケンシングマシン出力)により引き起こされる配列の歪みを最小化するためには、プローブされた配列の各部分を、複数回にわたり(例えば、2〜100回またはこれを超える回数にわたり)シーケンシングして、任意のランダムシーケンシングエラーの、作り出される最終アライメントおよび出力配列に対する影響を最小化する。最後に、核酸リードの全てに対応するデータの全てを収集したら、被験体の全ての配列(またはその一部)を決定するために、リードを、単一の基準配列(reference sequence)、例えばGRCh37にアラインする。多くの場合、個々のリードを実際に表示するわけではなく、アラインされた配列を、配列へとアセンブルし、配列を、データファイルとして提示する。
典型的には、配列アライメントは、配列情報の2つの線形文字列(linear string)間のペアワイズアライメントを集約することにより構築される。アライメントの例として、2つの文字列である、S1(配列番号12:AGCTACGTACACTACC)およびS2(配列番号13:AGCTATCGTACTAGC)は、互いにアラインすることができる。典型的には、S1はリードに対応し、S2は基準配列の部分に対応する。互いに対して、S1およびS2は、置換、欠失、および挿入からなっていてもよい。典型的には、用語は、文字列S1から文字列S2への変換に関して定義される:置換は、S2内の文字または配列が、S1内の同じ長さの異なる文字または配列で置きかえられる場合に生じ、欠失は、S2内の文字または配列が、S1の対応する区画(section)内で「スキップ」される場合に生じ、挿入は、文字または配列が、S1内の、S2内では隣接する2つの位置の間で生じる場合に生じる。例えば、2つの配列であるS1およびS2は、下記の通りにアラインすることができる。下記のアライメントは、13箇所のマッチ、長さ1の欠失、長さ2の挿入、および1箇所の置換:
(S1)AGCTA−CGTACACTACC(配列番号12)
(S2)AGCTATCGTAC−−TAGC(配列番号13)
を表示する。
当業者は、配列アライメントのための正確なアルゴリズムおよび近似的なアルゴリズムが存在することを十分に理解する。正確なアルゴリズムは、最高スコアのアライメントを見出す予想されるが、計算が高価でありうる。2つの最も周知の正確なアルゴリズムは、Needleman−Wunsch(J Mol Biol、48巻(3号):443〜453頁、1970年)およびSmith−Waterman(J Mol Biol、147巻(1号):195〜197頁、1981年;Adv. in Math.、20巻(3号):367〜387頁、1976年)である。Gotoh(J Mol Biol、162巻(3号):705〜708頁、1982年)による、Smith−Watermanに対するさらなる改善は、計算時間を、O(mn)からO(mn)[ここで、mおよびnは、比較される配列サイズであり、並列処理により適する]へと短縮する。バイオインフォーマティクスの分野では、Gotohの改変アルゴリズムが、Smith−Watermanアルゴリズムと称されることが多い。並列計算リソースが、より広くかつ廉価に利用可能となりつつあるので、Smith−Waterman法は、より多くの配列セットをより多くの基準配列に対してアラインするのに使用されている。例えば、http://aws.amazon.comで入手可能な、Amazon.comのクラウドコンピューティングリソースを参照されたい。上記の雑誌論文の全ては、参照によりそれらの全体において本明細書に組み込まれる。
Smith−Waterman(SW)アルゴリズムでは、配列内の塩基間の重複に対して報酬を与え、配列間のギャップに対してペナルティーを課すことにより、直鎖状の配列をアラインする。Smith−Watermanはまた、SWは、短い配列が、長い配列を記載する文字の文字列にわたることを必要としないという点でも、Needleman−Wunschと異なる。すなわち、SWは、1つの配列が、他の配列の全体についてのリードであることを仮定しない。さらに、SWは、文字列の全長にわたり伸長するアライメントを見出さなくてもよいため、局所的アライメントは、2つの配列内のどこでも開始および終結させることが可能である。
下記の等式(1):
Figure 2016540275
との関連で、SWアルゴリズムは、長さnおよびmの2つの文字列を表示する、n×m行列Hで容易に表示される。
上記の等式では、s(a,b)は、マッチボーナス(a=bである場合)またはミスマッチペナルティー(a≠bである場合)を表し、挿入および欠失には、それぞれ、ペナルティーWinおよびWdelが課される。大半の場合、結果として得られる行列は、ゼロである多くの成分を有する。この表示は、行列内の上行〜下行、右列〜左列のバックトレースを容易とし、これにより、アライメントの同定を容易とする。
行列にスコアを完全に追加したら、SWアルゴリズムにより、バックトラックを実施して、アライメントを決定する。アルゴリズムは、行列内の最大値から始めて、各セルの最終的な最大値を計算するのに3つの値(Hi−1,j−1、Hi−1,j、またはHi,j−1)のうちのいずれを使用したのかに基づき、バックトラックする。バックトラッキングは、ゼロに到達すると停止される。例えば、先行技術を表すものではなく、バックトラックの概念と、バックトラックが読み取られた場合の、対応する局所的アライメントとを説明するものである、図3Bを参照されたい。したがって、アルゴリズムにより決定された「最良のアライメント」は、可能な最小数を超える挿入および欠失を含有しうるが、可能な最大数をはるかに下回る置換を含有する。
SWまたはSW−Gotohとして適用する場合、技法では、動的計画法アルゴリズムを使用して、それぞれ、サイズをmおよびnとする、2つの文字列SおよびAの局所的配列アライメントを実施する。この動的計画法では、表または行列を援用して、マッチスコアを保存し、一連のセルについての再計算を回避する。文字列の各成分は、配列の文字に関するインデックスが付されていてもよく、すなわち、Sが文字列ATCGAAであれば、S[1]=A、S[4]=Gなどである。最適のアライメントをHi,j(上記)と表す代わりに、最適のアライメントは、下記の等式(2):
Figure 2016540275
のB[j,k]と表すことができる。
最大値関数であるB[j,k]の引数を、下記の等式(3)〜(5)[ここで、MISMATCH_PENALTY、MATCH_BONUS、INSERTION_PENALTY、DELETION_PENALTY、およびOPENING_PENALTYは、全て定数であり、MATCH_BONUSを除き、全て負である]に概括する。マッチの引数であるp[j,k]は、下記の等式(3):
Figure 2016540275
で与えられ、挿入の引数であるi[j,k]は、下記の等式(4):
Figure 2016540275
で与えられ、欠失の引数であるd[j,k]は、下記の等式(5):
Figure 2016540275
で与えられる。
3つの引数全てについて、[0,0]成分は、ゼロと置いて、バックトラックの完了を確認する、すなわち、p[0,0]=i[0,0]=d[0,0]=0とする。
スコア付けパラメータは、ある程度任意のものであり、計算の挙動を達成するように調整することができる。DNAのためのスコア付けパラメータ設定の一例(Huang、3章:Bio-Sequence Comparison and Alignment、Curr Top Comp Mol Biolシリーズ、Cambridge、Mass.: The MIT Press、2002年)であれば、
MATCH_BONUS:10
MISMATCH_PENALTY:−20
INSERTION_PENALTY:−40
OPENING_PENALTY:−10
DELETION_PENALTY:−5
である。
上記のギャップペナルティー(INSERTION_PENALTY、OPENING_PENALTY)の間の関係は、ギャップ挿入ペナルティーを、ギャップオープニングコストより大きく設定することにより、ギャップオープニングの数を制限する助けとなる、すなわち、ギャップをまとめてグループ化することを支援する。当然ながら、MISMATCH_PENALTY、MATCH_BONUS、INSERTION_PENALTY、OPENING_PENALTY、およびDELETION_PENALTYの間の代替的な関係も可能である。
アライメントが完了したら、アラインされた配列を、基準(すなわち、遺伝子標準物質)と比較して、変異体を同定しうる配列を作製するように、アセンブルすることができる。変異体は、疾患、病期、再発などに関する洞察をもたらしうる。アミノ酸アライメントの場合、アセンブルされたアミノ酸配列を、標準物質と比較して、タンパク質についての進化情報またはタンパク質についての機能情報を決定することができる。
現在の技術水準のアライメント法、例えば、Smith−Watermanの限界は、当該アライメントアルゴリズムでは、より小さなリード、例えば20塩基対(bp)から1000塩基対(bp)の間のリードを、リードよりも大きいかまたは類似したサイズの構造バリエーションの存在下でアラインするのが難しいことである。構造バリエーションは、典型的には、大きな、例えば、100bpまたはそれ超、例えば、典型的には、1キロベースから3メガベースの間の長さの配列の偏りである。構造変異体は、重複、逆位、転座またはゲノムの不均衡(挿入および欠失)を含み得、定義によれば、構造変異体はいくつかの塩基対を超えて広がる。一般に公知の構造バリエーションは、コピー数変異体を含み、それにより、染色体の領域内で、特定のゲノム領域が異常なコピー数で複製される。そのようなバリエーションは、がんならびに自己免疫障害および神経性障害との関連付けがなされてきた。
構造バリエーションを含有する配列の一部を表示するより短いリードを現在の技術水準の技法を使用して基準配列にアライメントすると、リードは、多くの場合、構造バリエーションが基準配列には存在しないことにより、基準配列に対するリードのアライメントスコアが意味のあるリードに対する閾値を下回るので、誤っているものとして廃棄される。他の場合では、リードはアラインされるが、リードの特定の配列は、アライメントスコアが、配列内の特定の塩基が構造バリエーションにおける変異の結果であるのか、または「正常な」構造バリエーションの単なるミスリードであるのかはっきりしない程度に低い(したがって、アラインされた配列が「ノイズが多い」と推定される)ので、無視される。
変異または変異体、例えば、小さなインデルまたは多型がリード内の構造バリエーションに極めて近傍に位置する場合には、さらなる問題が存在する。構造バリエーションをアラインすることの難しさは、「アライメント不可能(unalignable)」として廃棄される変異と構造バリエーションの両方を含有するリードを生じさせうる。そのようなリードがより多く廃棄されるほど、変異が完全に見逃される可能性が高くなる。結果として、構造バリエーションに近い意味のある稀な変異体または変異(本明細書では互換的に使用される)が、構造バリエーションに関連する低アライメントスコアに起因して棄却されうる。これらの見逃された変異体は、疾患の調節における(発見されていない)役割を有しうる。
構造バリエーションに近接した稀な変異体を検出できないことにより、遺伝子解析の質が著しく制限されるので、構造バリエーションを構成し(account for)、その結果として稀な変異または変異体のより良好なアライメントを生成することができる配列アライメント技法が必要とされている。
Needleman−Wunsch、J Mol Biol、48巻(3号):443〜453頁、1970年 Smith−Waterman、J Mol Biol、147巻(1号):195〜197頁、1981年 Adv. in Math.、20巻(3号):367〜387頁、1976年 Gotoh、J Mol Biol、162巻(3号):705〜708頁、1982年 Huang、3章:Bio-Sequence Comparison and Alignment、Curr Top Comp Mol Biolシリーズ、Cambridge、Mass.: The MIT Press、2002年
本発明は、一般に、アルゴリズムおよびその実行のための方法であって、例えば、Smith−Waterman−Gotohなど、線形局所配列アライメントプロセス(linear, local sequence alignment process)を、並列化の増加、速度の増加、精度の増加、および全ゲノムを通してリードをアラインする能力をもたらす、多次元的アライメントアルゴリズムへと変換するアルゴリズムおよび方法を提供する。ある特定の態様では、種内、集団内、さらには単一の生物体の異なる細胞内での遺伝子配列の変異性(variability)を構成するアセンブルされた基準構築物に対して本発明を実行する。本発明の基準構築物およびアライメントアルゴリズムの特定の利点は、基準配列のある特定の位置における異なる配列とマッチする配列リードをアラインする能力である。すなわち、基準構築物により、配列リードを、ある特定の位置における少なくとも2つの異なる配列経路(sequence path)のうちの1つ、例えば、基準配列と共通する配列に進む(follow)経路またはその基準配列と共通しない配列(例えば、変異、多型、構造変異体)に進む別の経路に対してアラインすることが可能になる。
本発明のアルゴリズムは、配列情報(Smith−Watermanにおけるのと同様な)についての「遡及」型の解析をもたらすが、公知の線形的方法とは対照的に、本発明の遡及は、全般的なミスマッチ率、欠失率、および挿入率の低下を達成しながら、複雑で長大な配列リードについてのより精密なアライメントをもたらすために、複数の経路(pathway)および複数のノードを含む多次元空間を介して実行される。
実際的には、本発明は、配列リードを、挿入、欠失、および置換を含む、アライメント内の可能な配列バリエーションの全てまたはほぼ全てを構成する、分枝点間にわたる一連の有向非巡回配列にアラインすることにより実行される。有向非巡回グラフ(DAG:directed acyclic graph)として表示されることが多い、このような構築物は、「許容される」基準配列およびバリアントコールフォーマット(VCF:variant call format)のエントリーを含む、利用可能な配列データベースから容易にアセンブルすることができる。DAG、または公知のバリエーションを考慮に入れる他の構築物と組み合わせると、開示されるアルゴリズムにより、アライメントの正確度を著しく改善し、従来のアルゴリズムでは不可能な配列分解能(sequence resolution)を可能にする、配列アライメントのための多次元手法が提供される。実際、技法は、任意の配列情報と共に使用しうるが、本明細書で論じられる通り、核酸配列およびアミノ酸配列をアラインするのに最も有用である。
本発明は、加えて、基準配列構築物、例えば、ゲノムの各遺伝子座において公知の変異体を表示するDAGを使用して、特異的な遺伝子座において、特異的な塩基コールを行う方法も提供する。配列リードは、アライメントの間にDAGにアラインされるため、変異を、基準ゲノムと比較して、公知の変異についての表と比較する後続のステップを廃することができる。開示される方法を使用すると、それは、核酸リードを、DAG上に表示される公知の変異に位置するものとして同定し、その変異をコールすることであるに過ぎない。あるいは、変異が公知でない(すなわち、基準配列構築物内で表示されない)場合も、アライメントは見出され、変異体は、新たな変異として同定される。方法はまた、特異的な疾患の危険性または疾患の進行などのさらなる情報を、基準配列構築物へと組み込まれた公知の変異と関連付けることも可能とする。さらに、全ての遺伝学的に関与性の結果を、アライメントの間に見出す潜在的可能性を有することに加えて、開示される方法は、複数の基準配列との同時比較を可能としながら、アライメントの作製に求められる計算リソースも減じる。
本発明は、生物体の配列内の位置において、公知の変異体を表示する、有向非巡回グラフ(DAG)データ構造を構築するための方法もさらに含む。DAGは、数千箇所もの位置において、複数の配列を含むことが可能であり、各位置において、欠失、挿入、翻訳、逆位、および一塩基多型(SNP)を含む、複数の変異体を含みうる。また、DAG内の各変異体に、「乳がん」など、相関する診断情報をタグ付けし、これにより、試料をもたらす患者に対する危険性を同定するのに必要とされるステップを減じることも可能である。一部の実施形態では、変異体を、スコア付けするか、重み付けするか、または他の変異体と相関させて、疾患についてのマーカーとしてのその変異体の発生率を反映させる。
本発明は、本発明の方法を実行するためのシステムもさらに含む。一実施形態では、システムは、複数の配列(すなわち、核酸配列、アミノ酸配列)を、ゲノム内またはゲノムの領域内で観察されるバリエーションを表示する基準配列構築物(例えば、DAG)と比較することが可能な、プロセッサーおよび記憶デバイスの分散型ネットワークを含む。システムは、加えて、効率的なアライメントアルゴリズムを使用して、連続的な配列を作製するように、核酸リードをアラインすることが可能である。基準配列構築物は、膨大な冗長情報を圧縮し、アライメントアルゴリズムは、極めて効率的であるため、市販のリソースを使用して、リードにタグ付けし、全ゲノム上でアセンブルすることもできる。システムは、複数のリードと基準配列構築物との間の複数の比較を同時に実行する複数のプロセッサーを含む。比較データは、蓄積し、医療提供者へと提示することができる。比較は、計算により扱いやすいため、配列リードの解析はもはや、NGSシーケンシングと患者の遺伝的危険性についての有意義な議論との間の障壁を表さない。
ある特定の態様によると、本発明は、核酸配列を、アラインされる配列内の異なる構造バリエーションを構成する基準配列構築物にアラインするための方法およびシステムを提供する。基準配列構築物内に表示される構造バリエーションを用いると、構造バリエーションの一部を含む配列リードは、バリエーションを構成しない線形的な基準配列を用いた場合に可能性のあるものよりも高いアライメントスコアで基準配列にアラインされる。結果として、基準構築物の異なる経路により、その後の分析のために、大きな公知の配列バリエーションまたはその一部を含有する配列リードを構築物に首尾よくアラインすることが有利に可能になる。適正にアラインされた配列リードの構造変異体を用いると、配列リードの一部である他の配列データ、特に構造変異体に極めて近傍にあるものが、同様に、線形的な基準配列を用いた場合に可能性のあるものよりも高いアライメントスコアで基準構築物にアラインされる。
構造変異体を含有するリードの一貫した、信頼できるアライメントにより、他のやり方ではアラインされない配列として廃棄される可能性がある配列データを捕捉することが可能になる。このことから、本発明のアルゴリズムおよび基準構築物を使用して構造バリエーションの近傍に位置する稀な変異体を捕捉する。稀な変異体とは、試料または集団内に約5%未満、好ましくは約1%未満の頻度で存在する変異体である。本発明の目的に関して、稀な変異体は、「表示されない」変異体、すなわち、使用される基準に反映されない変異体も含まれ得、それは、線形的な基準配列(既存の方法では)または本発明の基準構築物である。例えば、構造変異体に近接する(したがって、配列リードは構造変異体および稀な変異体の少なくとも一部を含む)稀な変異体を、構造変異体と共に本発明の基準構築物にアラインする。配列リード内の構造変異体が基準構築物に適切にアライメントされるので、構造変異体のアライメントの直接の結果として、構造変異体に近接する稀な変異体は、他のやり方で十分にアラインされた信頼できる多数のリードに存在する。稀な変異体が一貫して存在することにより、それがシーケンシングエラーではなく、正当な遺伝的変異体として認識されるようになる。本明細書に記載のマルチパスアライメント手法を使用することにより、線形的な基準アライメント手法を使用すると見落とされる可能性がある稀な配列の変異の分解能を可能とする。
図1は、基準配列内の遺伝子バリエーションを表示する有向非巡回グラフ(DAG)の構築について描示する図である。図1Aは、出発基準配列および欠失の付加を示す図である。図1Bは、挿入およびSNPの付加であり、これにより、アライメントに使用される最終的なDAGに到達することを示す図である。 図1は、基準配列内の遺伝子バリエーションを表示する有向非巡回グラフ(DAG)の構築について描示する図である。図1Aは、出発基準配列および欠失の付加を示す図である。図1Bは、挿入およびSNPの付加であり、これにより、アライメントに使用される最終的なDAGに到達することを示す図である。 図2は、有向非巡回グラフとして表示される、3つのバリアントコールフォーマット(VCF)のエントリーについて描示する図である。 図3Aは、核酸配列リードを、挿入イベントならびに基準配列からなる構築物にアラインすることについての、図解による表示である。図3Bは、核酸配列リード「ATCGAA」の適正な場所を同定するのに使用される、行列およびバックトラックを示す図である。 図4は、並列処理のための連想計算モデル(associative computing model)について描示する図である。 図5は、並列計算のためのアーキテクチャーについて描示する図である。 図6Aは、構造バリエーションの存在下での稀な変異体を説明する3つの核酸配列、ならびに構造バリエーションと稀な変異体の両方を有する配列と重複するリード(S**)を示す図である。 図6Bは、構造バリエーションと稀な変異体の両方を有する配列と重複するリード(S**)と、「許容される」基準配列(S)との間に重複がないことを説明する図である。 図6Cは、図6Aの3つの配列のうちの2つが組み込まれたDAGを説明する図である。 図6Dは、リードの、図6Aの3つの配列のうちの2つが組み込まれたDAGへのアライメントを説明する図である。 図6Eは、図6A配列の3つ全てが組み込まれたDAGを説明する図である。 図6Fは、リードの、図6A配列の3つ全てが組み込まれたDAGへのアライメントを説明する図である。
本発明は、例えば被験体から取得した核酸試料において、遺伝子配列内の構造バリエーションの近くの稀な変異体を同定するための方法を提供する。本発明は、リード(例えば核酸リード)を、構造バリエーションを構成する基準配列構築物にアラインするための方法、構造バリエーションまたは構造バリエーションおよび稀な変異体を構成する基準配列構築物を構築するための方法、ならびに、アライメント法を使用して稀な変異体を同定するシステムをさらに含む。方法は、拡張性があり、数百万ものリードを数千もの塩基長、またはそれ超の構築物にアラインするのに使用することができる。
本発明はまた、配列(例えば、核酸配列、アミノ酸配列)を、基準配列構築物にアラインするための方法、基準配列構築物を構築するための方法、ならびにアライメント法および構築物を使用して、アライメントおよびアセンブリーを作製するシステムを含む。基準配列構築物は、下記で記載される、有向非巡回グラフ(DAG)でありうるが、基準配列は、構築物が、アライメントのためにフォーマットされていることを条件として、種内の異なる生物体の配列内の遺伝的変異性を反映する任意の表示でありうる。遺伝的変異性はまた、生物体における異なる組織間または異なる細胞間の遺伝的変異性でもある。一般に、基準配列構築物は、サンプリングされた配列の間で同一な部分と、サンプリングされた配列の間で変化する部分とを含む。したがって、構築物は、同じ配列(複数可)を含む位置(すなわち、いくつかのカノニカル・オーダリングに従う)と、遺伝的変異性を反映する代替配列を含むいくつかの位置とを有すると考えることができる。本出願は、加えて、核酸リードの、構築物内の場所に対するアライメントに基づき、疾患または遺伝子型を同定するための方法も開示する。方法は、遺伝子シーケンシングおよび変異スクリーニングの分野に広く適用可能である。
基準配列構築物
核酸リードをアラインして遺伝子型解析するのに単一の基準配列を使用する先行技術による配列アライメント法と異なり、本発明では、種内、集団内、なおまたは単一の生物体における異なる細胞間の遺伝子配列の変異性を構成しうる構築物を使用する。遺伝子バリエーションについての表示は、有向非巡回グラフ(DAG)(上記で論じた)の行−列によるアライメント行列、またはdeBruijnグラフとして提示することができ、これらの構築物は、アライメントアルゴリズムのパラメータを適正に設定する(下記で論じる)ことを条件として、本発明のアライメント法と共に使用することができる。
本発明の好ましい実施形態では、構築物は、有向非巡回グラフ(DAG)である、すなわち、方向を有するが、巡回経路を有さない(すなわち、配列経路は、1回より多く基準構築物上の位置を通って進みえない)。DAGでは、配列内の遺伝子バリエーションを、代替的なノードとして表示する。ノードは、保存的配列の区画の場合もあり、遺伝子の場合もあり、単に核酸の場合もある。構築物を通る、異なる可能な経路は、公知の遺伝子バリエーションを表示する。DAGは、生物体の全ゲノムについて構築することもでき、DAGは、ゲノムの部分、例えば、染色体、または遺伝情報のより小さなセグメントだけについて構築することもできる。一部の実施形態では、DAGは、1000を超える核酸、例えば、10,000を超える核酸、例えば、100,000を超える核酸、例えば、1,000,000を超える核酸を表示する。DAGは、種(例えば、Homo sapiens)を表示する場合もあり、選択された集団(例えば、乳がんを有する女性)を表示する場合もあり、なおまたは同じ個体における異なる腫瘍細胞間の遺伝子バリエーションなど、より小さな部分集団を表示する場合もある。
DAG構築の簡単な例を、図1に示す。図1Aに示される通り、DAGは、図1Aに配列番号1:CATAGTACCTAGGTCTTGGAGCTAGTCとして示される基準配列で始まる。実際的には、基準配列は、はるかに長いことが多く、全ゲノムでありうる。配列は、FASTAファイルまたはFASTQファイルとして保存される(FASTQは、次世代シーケンサーから作製された配列データのためのデフォルトフォーマットとなっている)ことが典型的である。一部の実施形態では、基準配列は、GRCh37などの標準的な基準でありうる。当業者により認識される通り、配列内の各文字(または記号)は、実際的には、ヌクレオチド(例えば、デオキシリボヌクレオチドまたはリボヌクレオチド)またはアミノ酸(例えば、ヒスチジン、ロイシン、リシンなど)に対応する。
次のステップでは、図1(A)の下図に示される通り、変異体を、基準配列へと付加する。図1(A)に示されるとおり、変異体は、図中の直線間での、基準からの配列「AG」の欠失、すなわち、配列番号2である。図上では、この欠失を、基準配列を、欠失の前後でノードへと切断し、2つの文字列を、ノードの間に挿入することにより表示する。異なる経路により、基準構築物内に代替配列が創製される。経路のうちの1つは、基準配列と共通する配列を表示し、経路のうちの1つは、基準配列と共通しない配列を表示する。図1(A)では、ノード間の1つの経路は基準配列と共通する配列を表示し、他の経路は、基準配列と共通しない欠失を表示する。実際的には、変異体は、1000 Genomes Projectウェブサイトで見出されうるVCFファイルなどの、バリアントコールフォーマット(VCF)ファイル内のエントリーを適用することにより、DAGに対してコールする。各VCFファイルは、特異的な基準ゲノムに適合させてあるため、文字列がどこに位置するのかを同定することは、困難ではない。実際、VCFファイル内の各エントリーは、図2に表示される通り、基準と組み合わせて、別個のグラフを創製するエントリーと考えることができる。図2中のVCFエントリーは、図1のVCFエントリーに対応しないことに注目されたい。
図1Bに移ると、特異的な位置における挿入「GG」に対応する、第2のVCFエントリーを付加して、伸長型DAG、すなわち、配列番号3および配列番号4を含むDAGを作製する。次に、第3のVCFエントリーを、伸長型DAGに付加して、基準配列内の初期のSNP、すなわち、配列番号5〜8を含むSNPを構成することができる。こうして、3つのステップで、核酸リードをそれに対してアラインさせることができるDAGが創製された(下記で論じられるとおり)。
DAG基準構築物では、配列経路(基準と共通する配列および共通しない配列)は、どちらも、対象の配列に含めることができる代替配列を表示するので、基準構築物内の変異体とみなされる。
実際的には、DAGは、コンピュータメモリ内(ハードディスク、フラッシュメモリ、クラウドメモリなどの中)に、ノードのセットSとして表示され、各ノードは、文字列、親ノードのセット、および位置により規定される。文字列とは、ノードの「内容物」、すなわち、配列であり、親ノードは、ノードの位置を、グラフ内の他のノードに照らして規定し、ノードの位置は、システム内のいくつかのカノニカル・オーダリング、例えば、基準ゲノムに対する位置である。グラフを、基準配列に照らして規定することが厳密に必要なわけではないが、これにより、出力データの操作が簡略となる。当然ながら、Sに対するさらなる制約は、それがループを含みえないことである。
このDAG法を、大型の構造へと外挿することにより、基準の所与の領域について、遺伝子配列内の公知の変異を表示する、数千のVCFエントリーを組み込むDAGを構築することが可能である。にも拘らず、DAGが嵩高くなると、計算も長くかかるので、多くの適用では、配列の部分、例えば、染色体だけを表示しうる、小型のDAGを使用する。他の実施形態では、DAGにより包含される集団のサイズを減じることにより、例えば、乳がんにおけるバリエーションを表示するDAGから、トリプルネガティブ乳がんにおけるバリエーションを表示するDAGへと移行することにより、DAGを小型とすることができる。あるいは、試料間で一致している、DAGの大部分を結果としてもたらすことが典型的な、容易に同定される遺伝子マーカーに基づきカスタマイズされた、長大なDAGも使用することができる。例えば、アフリカ系女性(African-ancestry female)に由来する核酸リードのセットを、アフリカ系女性(women of African ancestry)に由来するVCFエントリーにより創製されたDAGに対してアラインすることの方が、同じ配列にわたりヒトにおいて公知の全てのバリエーションを構成するDAGと比較して速い。本発明のDAGは、それらが、時間の経過にわたって、新たに同定された変異を組み込むように改変されうるという点で、動的構築物であることを認識されたい。加えて、また、アライメント結果をDAGへと再帰的に付加するアルゴリズムも可能である。
文字列対DAGアライメントの場合は、ギャップペナルティーを、ギャップ挿入のコストをなおより大きくし、これにより、全体的な配列内の新たなギャップのオープニングではなく、配列に対するアライメントを支援するように調整することができる。当然ながら、DAG内の改善(上記で論じた)により、変異は、DAG内で構成されるため、ギャップの発生は、なおさらに減少するはずである。
アライメントアルゴリズム
一実施形態では、アルゴリズムを使用して、配列リードを、有向非巡回グラフ(DAG)に対してアラインする。「背景技術(Background)」で表されたアルゴリズムと異なり、アライメントアルゴリズムでは、DAG(例えば、基準配列構築物)上の位置において含有される各配列に対する最大スコアを同定することにより、Cijの最大値を同定する。実際、先行する位置を「後ろ向きに(backwards)」見ることにより、複数の可能な経路にわたり最適のアライメントを同定することが可能である。
本発明のアルゴリズムは、上記で論じた通り、リード(別名「文字)および有向非巡回グラフ(DAG)上で実行される。アルゴリズムを規定する目的で、Sを、アラインされる文字列とし、Dを、Sがアラインされる有向非巡回グラフとする。文字列Sの成分において、1で始まるインデックスがカッコ内に示される。したがって、Sが文字列ATCGAAであれば、S[1]=A、S[4]=Gなどである。
DAGでは、ノードの配列の各文字は、別個の成分であるdとして表示される。dの先行成分(predecessor)は、以下のように定義される。
(i)dが、そのノードの配列の第1の文字でなければ、そのノード内のdに先行する文字が、その(唯一の)先行成分であり、
(ii)dが、そのノードの配列の第1の文字であれば、任意のノードの配列の最後の文字であって、dのノードの親である文字が、dの先行成分である。
全ての先行成分のセットは、P[d]として表示する。
「最良の」アライメントを見出すために、アルゴリズムでは、Sの最初のj個の成分の、dに先行する(およびdを含む)DAGの部分による最適のアライメントについてのスコアである、M[j,d]の値を求める。このステップは、「背景技術」節中の等式1内のHijを見出すステップと同様である。具体的に、M[j,d]を決定するステップは、下記:
Figure 2016540275
で規定される通り、a、i、e、および0のうちの最大値を見出すことを伴う。
上記で記載した通り、eとは、Sの最初のj個の文字の、DAGの部分であって、dまでであるが、dを含まない部分によるアライメントのうちの最高のアライメントに、追加のDELETE_PENALTYを加えた値である。したがって、dが、ノードの配列の第1の文字でなければ、唯一の先行成分pが存在し、Sの最初のj個の文字の、DAG(pまでであり、pを含む)によるアライメントスコアは、M[j,p]+DELETE_PENALTYと等しい。dが、そのノードの配列の第1の文字である場合、複数の可能な先行成分が存在することが可能であり、DELETE_PENALTYは定数であるため、[M[j,p]+DELETE_PENALTY]を最大化することは、先行成分を、Sの最初のj個の文字による最高のアライメントスコアと共に選択することと同じである。
等式(6)では、iとは、文字列Sの最初のj−1個の文字の、dまでであり、dを含むDAGによるアライメントに、SWにおける挿入引数の定義(等式1を参照されたい)と同様のINSERT_PENALTYを加えた値である。
加えて、aとは、Sの最初のj個の文字の、DAGの部分であって、dまでであるが、dを含まない部分によるアライメントのうちの最高のアライメントに、MATCH_SCORE(Sのj番目の文字が、文字dと同じである場合)またはMISMATCH_PENALTY(Sのj番目の文字が、文字dと同じでない場合)を加えた値である。eと同様に、これは、dが、そのノードの配列の第1の文字でなければ、唯一の先行成分、すなわち、pが存在することを意味する。これは、aが、Sの最初のj−1個の文字の、DAG(pまでであり、pを含む)によるアライメントスコア、すなわち、dとSのj番目の文字とがマッチするのかどうかに応じて、MISMATCH_PENALTYまたはMATCH_SCOREを加えたM[j−1,p]であることを意味する。dが、そのノードの配列の第1の文字である場合、複数の可能な先行成分が存在しうる。この場合、{M[j,p]+MISMATCH_PENALTYまたはMATCH_SCORE}を最大化することは、先行成分を、Sの最初のj−1個の文字による最高のアライメントスコア(すなわち、M[j−1,p]の候補引数の最高値)と共に選択し、dとSのj番目の文字とがマッチするのかどうかに応じて、MISMATCH_PENALTYまたはMATCH_SCOREを加えることと同じである。
ここでもまた、「背景技術」で論じられたSWアルゴリズムの場合と同様に、ペナルティー、例えば、DELETE_PENALTY、INSERT_PENALTY、MATCH_SCORE、およびMISMATCH_PENALTYは、少数のギャップを伴うアライメントを促すなどのように調整することができる。
上記の等式で記載されている通り、アルゴリズムでは、各リードについて、その成分についての挿入スコア、欠失スコア、およびマッチスコアを計算するだけでなく、DAG上の任意の先行ノードを後ろ向きに見て(DAGの方向と反対方向に)、最大のスコアを見出すことにより、最大値を見出す。こうして、アルゴリズムは、DAGを通る異なる経路であって、公知の変異を含有する経路を横断することが可能である。グラフは有向であるため、グラフの方向と反対方向に移動するバックトラックは、グラフの起点に向かって好ましい変異体配列に進み、最大値のアライメントスコアは、最も可能性の高いアライメントを、高い確実性で同定する。上記の等式は、「最大」値として表示されるが、「最大」は、例えば、等式の全てにおいて記号を切り替え、最小値について解くことを含む、最適化の任意の形態を包含することを意図する。
開示されるアルゴリズムの実行について、図3で例示するが、ここで配列「ATCGAA」を、基準配列である配列番号10:TTGGATATGGGと、公知の挿入イベントである配列番号11:
Figure 2016540275
[ここで、挿入には下線を付す]とを表示するDAGに対してアラインする。図3Aが、DAGと比較されるリードについての図解による表示を示すのに対し、図3Bは、比較に対応する実際の行列を示す。「背景技術」で論じられたSmith−Waterman技法と同様に、本発明のアルゴリズムでは、最高のスコアを同定し、バックトラックを行って、リードの適正な場所を同定する。図3AおよびBはまた、本発明が、文字列について、構築物に対する実際のマッチをもたらすのに対し、公知の方法(例えば、SW)であったら、文字列を、基準の誤った部分にアラインする、または文字列を、アライメント内に含まれるのに十分に高いアライメントスコアを生成しないものとして棄却する可能性が高いことも強調する。配列リードが、DAG内に含まれていなかった変異体を含む場合、アラインされた配列は、ギャップ、挿入などを伴うと報告される。
基準配列構築物の適用
本発明の基準構築物およびアライメントアルゴリズムの1つの利点は、配列リードを基準配列構築物のある特定の位置において第1の配列または第2の配列のいずれかにアラインするその能力である。すなわち、本発明の基準配列構築物により、配列リードをある特定の位置において少なくとも2つの異なる配列経路、例えば、基準配列と同等である配列に進む経路、および変異体(例えば、変異、多型、コピー数バリエーション)を含めた基準配列と同等である公知の配列に進む別の経路のうちの1つに対してアラインすることが可能になる。したがって、配列内の公知のバリエーションは、本発明の技法を使用して、公知のバリエーションを含有するリードを、変異を含む配列経路にアラインすることによって確実に構成し、同定することができる。
バリエーション(変異体とも称される)は、基準配列構築物内のある特定の位置において、2つまたはそれ超の代替配列(すなわち、異なる配列が2つまたはそれ超の経路を形成する場合)のうちのいずれか1つを含みうる。別の意味では、基準配列構築物にはいくつかの基準集団/データセットに関連するシーケンシングデータが組み込まれるので、DAG構築物内の代替配列はいずれも変異体とみなされる。構築物の基準配列は、DAGについてのベースラインとして使用される典型的には分析のために使用される長い配列である任意の配列であり、また、ゲノムの一部またはゲノム全体でありうる。基準配列は、ある特定の種(例えば、Homo sapiens)に共通する配列であってもよく、ある特定の患者集団(例えばがん患者)に共通してもよい。
ある特定の実施形態では、変異体を、基準配列と共通する配列または共通しない配列とみなすことができる。本明細書で考察する通り、共通する配列変異体は、ベースラインとして選択される基準配列に進む基準構築物内の任意の配列経路である。そのように、配列バリエーションが基準配列と「共通する」か「共通しない」かは、ベースライン基準配列として何を選択するかに依存する。例えば、基準構築物は、ある特定の位置において、正常な、健康な個体に共通する第1の配列経路および乳がんの個体に共通する変異を有する第2の配列経路を含みうる。ベースライン基準が乳がん患者に共通する基準配列である場合、正常な、健康な個体への方向を有する第1の配列経路は共通しない変異体であり、乳がんの個体に関する第2の配列経路は共通の変異体である。ベースライン基準を正常な、健康な個体に共通する基準配列とみなす場合には、正常な、健康な個体への方向を有する第1の配列経路は、共通の変異体であり、乳がん患者への方向を有する第2の配列経路は共通しない変異体である。
基準構築物の異なる経路により、大きな公知の配列の偏りを有する配列リードをその後の分析のために構築物に首尾よくアラインすることが有利に可能になるが、一方、従来の一次元基準配列では、そのような大きな偏りはアライメントスコアが低いことに起因して棄却される。構造変異体と称されることが多い大きな公知の配列バリエーションは、典型的には、1Kb〜3Mbのサイズである。しかし、本出願の目的に関しては、構造変異体は、そのサイズが原因で配列リードが線形的な基準配列にアラインされることが妨げられるまたは基準配列に極めて不十分にアラインされる(例えば、アライメントスコアが低い)、配列リード内の大きな配列変異体のいずれも含みうる。ある特定の実施形態では、構造変異体の配列の長さは、約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、1Kb、1.1Kb、1.2Kb、1.3Kb、1.4Kb、1.5Kb、1.6Kb、1.7Kb、1.8Kb、1.9Kb、2.0Kb…2.0Mb、2.1Mb、2.2Mb、2.3Mb、2.4Mb、2.5Mb、2.6Mb、2.7Mb、2.8Mb、2.9Mb、3.0Mbなどである。構造バリエーションは、遺伝的多様性および易罹患性に寄与するので、被験体に対する重要な洞察をもたらす。
本発明とは異なり、従来のアライメント法(例えば、線形的な基準配列)では、構造バリエーションが同定される見込みはなく、さらには構造バリエーションの近くに位置する稀な変異体が同定される可能性も低い。稀な変異体は、所与の集団において低い確率で見出される任意の変異(インデルまたは多型など)を含む。例えば、稀な変異体は、例えば、25%またはそれ未満;20%またはそれ未満;15%またはそれ未満;10%またはそれ未満;または5%またはそれ未満にわたるマイナー対立遺伝子頻度を有しうる。(マイナー対立遺伝子頻度(MAF)とは、所与の集団において最小の共通対立遺伝子が存在する頻度を指す)。いくつかの場合には、稀な変異体は、まだ同定されていない、すなわち、リードをアラインする基準では表示されない変異体を含む。いくつかの場合には、稀な変異体は、VCFファイル内に分類されていない。アライメント機構の展望から、そのような変異体は、試料の集団におけるそれらの実際の頻度にかかわらず、事実上これまでに見られていないものである。構造変異体の近くに位置する稀な変異体は、構造変異体から、およそリードの長さ、すなわち、約100bpまたはそれ未満離れていてよい。しかし、本発明は、この間隔に限定されない。いくつかの場合には、構造変異体の近くに位置する稀な変異体では、稀な変異体と構造変異体との間の間隔は、約1bp〜約1Mbp、例えば、約10bp〜約10,000bp、例えば、約100bp〜約1000bpにわたりうる。
従来のアライメント法では、2つの因子の組合せに起因して、構造変異体の近くの稀な変異体を認識することができない。第1に、従来のアライメント法では、対象のリードを、公知のものであってさえ、構造バリエーションが考慮されていない単一の線形的な基準配列にアラインする。第2に、稀な変異体を含有するリードのほぼ全てが構造変異体も含有する。稀な変異体と構造変異体との間の塩基の間隔が短くなるほど、構造変異体も含有する稀な変異体を含有するリードが多くなる。これらの2つの因子により、構造変異体と稀な変異体の両方を含有する配列リードのアラインが失敗する機会が有意に高くなる。構造変異体は大きく、基準配列には反映されないので、それと重複するリードは、アライメントアルゴリズムによって「アライメント不可能」(すなわち、基準とは異なりすぎるので基準の任意の一部とマッチできない)として棄却される。その場合、構造変異体と稀な変異体の両方が廃棄される。構造変異体および稀な変異体を有するリードと、線形的な基準配列上のリードの対応する「適切な」ゲノムの場所との間のマッチの欠如により、リードがゲノム上の正しくない場所へのアライメントを生じうる。リードまたはその一部が正しい全般的な場所にアラインされたとしても、マッチングアルゴリズムは、許容されるアライメントを達成しようとうる試みにおいて稀な変異を落とす可能性がある。これは、変異体が、リードがアラインされる基準内で表示されない場合に特に可能性がある。かろうじて正確にアラインされた稀な変異体を含有するリードはいずれも、アライメント品質が不十分であり、アライメントの数が少なく、その両方により、アライメントがただ単にランダムなエラーであることが示唆されるので、信頼度が低いものとして扱われる。大きな公知の構造変異体は、公知であるためにリードの信頼度が不十分であったとしてもコールされ得るが、稀な変異体は通常、公知の構造変異体と比較してノイズ/エラーに分類され、廃棄される。
稀な変異体が実質的な疾患のリスクを付与することは、一般に受け入れられているので、配列アセンブルの間に稀な変異体を検出する能力を最大にすることが極めて重要である。本発明の基準構築物は任意の公知の構造変異体を構成しうるので、本発明の基準構築物により、アライメントプロセスの間にアライメントされない構造変異体および稀な変異体が最小限になる。基準構築物におけるある特定の場所に少なくとも2つの構造変異体を含めることにより、本発明では、構造変異体の少なくとも1つの一部を含む配列リードを基準構築物にアラインすることが可能になる。すなわち、公知の構造変異体の一部を含む配列リードがアラインされ、構成されるが、線形的な基準構造では、同じ構造変異体のアラインが失敗する。本発明の結果は、構造変異体を含むリードは、リードがミスマッチではなくマッチとして扱われるので、DAGに高い程度の信頼度および正確度で適正にアラインすることができるというものである。
適正にアラインされた構造変異体では、構造変異体を伴う配列リードの一部である他の配列データも同様に基準構築物にアラインされる。例えば、構造変異体に近接する(したがって、配列リードは構造変異体および稀な変異体の少なくとも一部を含む)稀な変異体は構造変異体と共に基準構築物にアラインされる。したがって、構造変異体に隣接する稀な変異体は、配列リード内の構造変異体がDAG基準構築物に適切にアラインされるので、多数の他のやり方で十分にアラインされた信頼できるリードに存在する。稀な変異体が一貫して存在することにより、変異体が基準構築物内で表示されなくとも、それがシーケンシングエラーではなく、正当な遺伝的変異体であると認識されるようになる。
図6A〜6Fは、構造変異体の近くの稀な変異体を同定するための、本発明の基準構築物の使用を説明する。図6Aは、各々が50ヌクレオチドの長さである3つの仮定上の配列:基準配列S(配列番号14)、構造バリエーションを伴う配列S(配列番号15)、ならびに構造バリエーションおよび稀な変異体を伴う配列S**(配列番号16)の概略である。配列Sおよび配列S**は、基準配列Sに対して、26位から50位にわたる公知の構造バリエーションを含む。実際には、構造バリエーションは、典型的には、100bpまたはそれ超である。構造バリエーションの長さが説明のために図6A〜6Fに示されている。図6A〜6F全体を通して示されている通り、公知の構造バリエーションが太字で示され、強調されている。配列S**は、基準配列Sに対して、23位においてGがTで置きかえられた置換変異である稀な変異体も含む。図6Aは、20位から34位にわたる、配列S**の配列リード(リード1と称される)も示す。したがって、リード1は、構造変異体の一部(26位から34位まで)および23番目の位置における稀な変異体を含む。実際には、配列リードおよび構造バリエーションは、図6における説明よりも長い可能性がある。さらに、稀な変異体は、構造バリエーションからさらに離れている可能性がある。
図6Bは、配列S**のリード1の基準配列Sへのアライメントを説明する。特に、図6Bは、従来の線形型では配列S**のリード1を基準配列Sにアラインできないことを説明する。線形的にアラインすると、リード1における大多数のヌクレオチドは、基準配列とは20位から34位まで異なる。ミスマッチにもかかわらず、リード1は、理想的には、稀であり構造的な配列バリエーションを適切に示すために20位から34位まで基準配列にアラインする。しかし、ミスマッチのレベルが高いことに起因して、Smith−WatermanまたはNeedleman−Wunschなどのアルゴリズムでは、アライメントのために必要な実施において使用される品質閾値を満たすスコアがリード1に割り当てられる可能性が低い。結果として、リード1を線形的な基準配列の20位から34位までにアラインすることができず、リード1からのデータは棄却される。さらに、基準配列がゲノムにわたる場合(示されている50ヌクレオチドを超える多くの桁)、リード1は、基準配列上の別の正しくない場所においてより高いマッチするスコアを有する可能性がある。
図6C〜6Dは、本発明のDAG基準構築物を使用した公知の構造変異体の近くの未知の稀な変異体のアライメントを説明する。図6Cは、基準配列Sと配列Sの両方からのシーケンシングデータを組み込むDAGを説明する。図6Cに示されているDAG基準構築物1は、基準配列Sと共通する配列変異体に進む基準経路(1)、ならびに配列Sおよび配列S**には存在するが基準配列Sとは共通しない公知の構造変異体に進む基準経路(2)を含む。図6Dは、S**のリード1のDAG基準構築物1へのアライメントを説明する。示されている通り、リード1は公知の構造変異体を伴う経路に進むので、リード1はDAGにほぼ完全にアラインされる。リード1とDAG基準構築物1との間の唯一のミスマッチは、23位における稀な変異体(すなわち、23位におけるT置換)である。ミスマッチが軽微であるので、アライメントアルゴリズムによりリード1が正しい場所にアラインされる可能性が最も高く、そのようなアライメントのスコアは品質閾値を上回る。配列スコアの品質が高いので、このアライメントにより配列S**内の稀な変異体を確実に同定することが可能になる。別のやり方で十分にアラインされた高スコアのリードの一部であるために、リード1のDAG基準構築物1へのアライメントは、23位における未知の稀な変異体をシーケンシングエラーとしてではなく正当な変異として同定することを可能にする。
図6E〜6Fは、本発明のDAG基準構築物を使用した公知の構造変異体の近くの公知の稀な変異体のアライメントを説明する。図6Eに示されている通り、DAGは、基準配列の23位におけるG−T置換に起因する基準構築物内の変異体を構成するための基準経路(1)および(2)、ならびに26位から50位までにわたる公知の構造変異体に起因する基準構築物内の変異体を構成するための基準経路(3)および(4)を含む。
並列化の見込み
Smith−Waterman−Gotohアルゴリズムの逐次形は、大規模な並列化に適応し、大幅に改変されている。例えば、連想大規模並列処理(Associative Massive Parallelism)を使用するSmith−Waterman法(SWAMP)と呼ばれるASCモデルについては、参照によりその全体において本明細書に組み込まれる、米国特許公開第2012/0239706号において記載されている。SWAMP(および他の並列処理システム)のための並列化の一部は、任意の反対角成分(anti-diagonal)に沿った値が、互いから独立であるという事実から来る。こうして、所与の反対角成分に沿ったセルの全ては、計算リソースを分散させるように、並列的に処理することができる。上記の再帰式で示されたデータの依存性により、達成可能な並列処理のレベルは制限されるが、ウェーブフロント法を使用することにより、この有用なアルゴリズムはさらに加速化される。Wozniak(Comput Appl in the Biosciences(CABIOS)、13巻(2号):145〜150頁、1997年)により、Sun Ultra SPARC上で実行されるウェーブフロント法では、特化したSIMD様のビデオ処理命令を使用する。Wozniakは、SIMDレジスターを使用して、副対角成分(minor diagonal)に対応する値を保存したところ、同じマシン上の従来の実行に対して2倍の加速化を報告している。Wozniakの例に続く、コードを並列化する同様の方法は、ストリーミングSIMD拡張(SSE:Streaming SIMD Extension)セットを、x86アーキテクチャーに使用することである。Intelにより設計されたベクトル様演算では、少数の値(通例、4つ、8つ、または16の値)に対する単一の演算/命令を、一度に完了させる。多くのAMD製チップおよびIntel製チップが、SSEの多様なバージョンを支援しており、Intelでは、その最新チップセットのためのアドバンストベクトルエクステンション(AVX)に関して、この技術の開発を継続している。
他の実行では、RognesおよびSeeberg(Bioinformatics(Oxford、England)、16巻(8号):699〜706頁、2000年)は、Intel Pentiumプロセッサーを使用して、SSEの先行成分である、MMX SIMD命令を、それらの実行のために使用している。RognesおよびSeeberg(Bioinformatics、16巻(8号):699〜706頁、2000年)による、ParAlignのための作業から開発された手法では、ウェーブフロント法を使用しない(Rognes、Nuc Acids Res、29巻(7号):1647〜52頁、2001年;Saeboら、Nuc Acids Res、33巻(増刊2号):W535〜W539頁、2005年)。代わりに、彼らは、クエリー配列と並行にSIMDレジスターをアラインさせ、あらかじめ計算されたクエリー特異的なスコア行列を使用して、8つの値を一度に計算する。この方法のさらなる詳細は、参照により本明細書に組み込まれる、U.S.7,917,302において見出すことができる。RognesおよびSeebergが、SIMDレジスターを配置する(layout)方式である、ノースネイバー依存方式によれば、SSEによる並列「ベクトル」計算から得られる潜在的加速化のうちの最大3分の1が失われうる。これを克服するために、彼らは、SWAT様最適化を組み込んでいる。アフィンギャップペナルティーを大きくすると、ノーザンネイバーは、大半の場合にゼロとなる。これが成り立つなら、プログラムは、ノースネイバーの値の計算をスキップすることが可能であり、これを、Farrar(Bioinformatics、23巻(2号):156〜161頁、2007年)は、「F遅延評価」と称している。RognesおよびSeebergの方法では、ノースネイバーの値がある特定の閾値を下回る場合には、それをスキップすることにより、等式1の計算回数を縮減して、それらのアルゴリズムを加速化することが可能である。RognesおよびSeeberg、Bioinformatics、16巻(8号):699〜706頁、2000年では、MMX/SSE命令およびSWAT様拡張を介する8元ベクトルを使用して、6倍の加速化が報告された。
Farrar(Bioinformatics、23巻(2号):156〜161頁、2007年)によりなされたSSE作業では、ストライプパターンまたはストライドパターンのアクセスを使用して、SIMDレジスターを、クエリーレジスターに沿って線形に並べる。このようにすることにより、いかなる依存性の重複も回避される。ここでもまた、SWAT様最適化(Farrar、Bioinformatics、23巻(2号):156〜161頁、2007年)を組み込むことにより、Wozniak(CABIOS、13巻(2号):145〜150頁、1997年)およびRognesおよびSeeberg(Bioinformatics(Oxford、England)、16巻(8号):699〜706頁、2000年)によるSIMD実装に対して、2〜8倍の加速化が達成されている。ブロック置換行列、および効率的で巧妙な内部ループであって、ノーザン(F)条件により、その内部ループの外部へと移動させた内部ループは、重要な最適化である。16ビットエレメント、8ビットエレメントの処理のための、ストライドパターンによるメモリアクセス(strided memory pattern access)もまた、メモリアクセス時間を改善し、全体的な加速化に寄与する。
Farrar(Sequence Analysis、2008年)は、ソニー、東芝、およびIBMにより製造されたCell Processorのために、自身の作業を拡張した。このCell Processorは、1つの主コアおよび8つの副コアを有する。Cell Broadband Engineは、複数のさらなるSmith−Waterman実装であって、いずれもFarrarのストライピング法を使用する、Szalkowskiら(BMC Res Notes、1巻(107号)、2008年)によるSWPS3、およびWirawanら(BMC Bioinformatics、9巻(377号)、2008年)によるCBESWを含む実装のための、開発プラットフォームであった。Rudnickiら(Fund Inform.、96巻、181〜194頁、2009年)は、PS3を使用して、複数のデータベース配列にわたる並列化を使用する方法を開発した。
Rognes(BMC Bioinformatics、12巻(221号)、2011年)はまた、SWIPEと呼ばれるマルチスレッド法であって、複数のデータベース配列を、並列的に処理するマルチスレッド法も開発している。焦点は、SIMD法を、「通常のCPU」上で使用することであった。粗視化並列処理を使用するこの探索は、複数のデータベース配列を並列的に使用する作業を分割するものであり、これは、Liuら(BMC Res Notes、2巻(73号)、2009年)ならびにLigowskiおよびRudnicki(Eight Annual International Workshop on High Performance Computational Biology、Rome、2009年)によるCUDASWに記載されているグラフィックプロセッサユニット(GPU:graphics processor unit)ベースのツールと同様である。GPU作業の他の実装は、Liuら(BMC Res Notes、3巻(93号)、2010年)およびLigowskiら(GPU Computing Gems, Emerald Edition、Morgan Kaufmann、155〜157頁、2011年)によるCUDASW++2.0でなされている。
他の変化形では、小スケールのベクトルによる並列化(8、16、または32元の並列処理)を、複数の配列を並列的にアラインするGPU実装を介して、計算をアクセス可能とするのに使用することができる。計算の理論的なピーク加速化は、最適な加速化であるm倍である。96の処理エレメントを使用する、ClearSpeed実装について、96倍の加速化がなされることから、理論的な加速化が確認される。
並列計算モデル
Smith−Waterman配列アライメントを開発および拡張するのに使用される、主要な並列モデルは、連想計算(ASC:ASsociative Computing)(Potterら、Computer、27巻(11号):19〜25頁、1994年)である。本明細書では、Smith−Watermanアルゴリズムの効率的な並列バージョンが記載される。本節では、このモデルおよび他の1つのモデルが詳細に記載される。
ここでは、いくつかの関与性の語彙が定義される。フリンによるコンピュータアーキテクチャーの分類法からの2つの目的の用語は、並列計算の2つの異なるモデルである、MIMDおよびSIMDである。複数命令複数データ(MIMD:multiple−instruction,multiple−data)モデルと分類される、コンピュータクラスターを、超大スケールのアライメントにおけるメモリの限界を克服する概念実証として使用する。節8では、MIMDモデルの使用法について記載する。また、ASCとして公知の、拡張型データ並列単一命令複数データ(SIMD:single−instruction multiple−data)モデルについても記載される。
複数命令複数データ(MIMD)
複数データ複数命令モデルまたはMIMDモデルは、現在利用可能な並列システムの大半について記載するものであり、流通している一般用コンピュータクラスターを含む。MIMDプロセッサーは、各々がそれ固有のローカルメモリを伴う(Quinn、Parallel Computing: Theory and Practice、2版、New York: McGraw-Hill、1994年)、本格的中央処理装置(CPU:central processing unit)を有する。SIMDモデルと異なり、MIMDプロセッサーの各々は、それ固有のプログラムを、非同期的に保存および実行する。MIMDプロセッサーは、それらが通信することを可能とするネットワークを介して接続されるが、使用されるネットワークは、マシン(クラスターノード)間のEthernet接続、Myrinet接続、およびInfiniBand接続にわたり、広く変化しうる。通信は、SIMDよりはるかに緩やかな通信構造を援用する傾向があり、単一のユニット内に収まらない。データは、ネットワークに沿って、個々のプロセッサーにより、それらが実行している、それらの個々のプログラムの制御下で、非同期的に移送される。通信は、メッセージの送受信を支援する複数の異なる並列言語のうちの1つにより操作されることが典型的である。このための極めて一般的なライブラリーは、メッセージパッシングインターフェース(MPI)として公知である。「SIMD様」方式の通信も可能であるが、データの移動は、非同期的である。MIMDによる並列計算は通例、プロセッサーにより実行される多様なタスクが、高度に独立(すなわち、いわゆる「驚異的並列(embarrassingly parallel)」問題または「あきれるほど並列(pleasingly parallel)」問題)でない限りにおいて、広範な通信および頻繁な同期化を必要とする。節8で提示される作業では、InfiniBandを介して接続された、AMD Opteronクラスターを使用する。
SIMDと異なり、メッセージの送受信に必要とされる最悪の場合の時間は、予測するのが困難であるかまたは不可能である。MIMDソフトウェアのためのメッセージの送受信の実行時間は、SIMDに典型的な、最悪の場合の理論的な評価によってではなく、試行により決定されることが多い、平均的な場合の推定値を使用して決定することが典型的である。MIMDソフトウェアの最悪の場合は、極めて悪いことが多く、生じるのはまれであるので、平均的な場合の推定値がはるかに有用である。結果として、特定の問題についてMIMDに必要とされる通信時間は、SIMDの場合より長くなる可能性があり、通例、有意に長い。これにより、MIMDのプログラミング(とりわけ、メッセージの送受信を使用する場合)における重要な目標であって、必要とされるプロセッサー間通信の数を最小化し、プロセッサー通信間の時間の量を最大化するという目標がもたらされる。これは、グラフィックプロセッサまたはGPUを使用する場合など、単一のカードによる加速化レベルでもなお成り立つ。
また、データ並列プログラミングも、MIMDのプログラミングで重要な技法であるが、この場合、全てのタスクは、異なるデータに対して同じ演算を実施し、多様な臨界点に限り同期化される。MIMDシステムのためのアルゴリズムの大半は、単一プログラム複数データ(SPMD:Single−Program、Multiple−Data)プログラミングパラダイムで書き込まれる。各プロセッサーは、同じプログラムのそれ固有のコピーであって、そのプロセッサーまたはコアに特異的なコードセクションを、そのローカルデータに対して実行するコピーを有する。SPMDパラダイムの一般性は、多数の異なるプログラムであって、異なるプロセッサーにわたり同時に実行され、なおかつ、単一の問題を解くのに協同することが可能なプログラムを書き込むことは極めて困難であるという事実から来る。メモリ集約的ではあるが、計算集約的ではない問題に使用される別の手法は、節8で提示される作業を使用して、JumboMemによりなされる通り、バーチャルメモリサーバーを創出することである。ここでは、その基礎となる実行においてMPIが使用される。
単一命令複数データ(SIMD)
SIMDモデルは、PEと呼ばれる、複数の単純な演算処理エレメント(processing element)からなる。各PEは、それ固有のローカルメモリであって、PEがそこからフェッチおよび保存するメモリは有するが、プログラムをコンパイルまたは実行する能力は有さない。本明細書で使用される「並列メモリ」という用語は、計算システム内のローカルメモリを集合的に指す。例えば、並列メモリは、SIMDコンピュータシステム内のローカルメモリの集合体(例えば、PEのローカルメモリ)、MIMDコンピュータシステム内のプロセッサーのローカルメモリの集合体(例えば、中央処理装置のローカルメモリ)などでありうる。プログラムの編集および実行は、制御装置(またはフロントエンド)と呼ばれるプロセッサーにより操作される(Quinn、Parallel Computing: Theory and Practice、2版、New York: McGraw-Hill、1994年)。制御装置は、通例はバスにより、全てのPEへと接続される。
全てのアクティブなPEは、制御装置から受信されたプログラムの命令を、ロックステップで、同期的に実行する。「いかなる時間単位においても、単一の演算は、複数の処理装置であって、各々が異なるデータを操作する処理装置上で、同じ実行状態にある」(Quinn、Parallel Computing: Theory and Practice、2版、New York: McGraw-Hill、1994年、79頁)。全てのアクティブなPEは、同じ命令を、同時に並列的に実行するが、いくつかのPEは、任意の特定の命令をスキップすることを許容されうる(Baker、SIMD and MASC: Course notes from CS6/73301:Parallel and Distributed Computing--power point slides、(2004年)2004年)。これは通例、PEのうちの一部が、if命令を実行し、残りのPEが、else部分を実行する、「if−else」分枝構造を使用して達成される。このモデルは、「データ並列的」な性質の問題であって、たかだか少数のif−else分枝構造であり、図像処理および行列演算など、同時に生じうる分枝構造を有する問題に理想的である。
制御装置は、データを、全てのアクティブなPEへとブロードキャストすることができ、制御装置はまた、制御装置とPEとの接続(通例、バス)を使用して、データ値を、特定のPEから得ることもできる。加えて、PEのセットは、線形アレイ、2Dメッシュ、またはハイパーキューブなどの相互接続ネットワークであって、PE間の並列データの移動をもたらす相互接続ネットワークによっても接続される。データは、このネットワークを通して、同期的並列方式で、PEにより移送され、PEは、データの移動を含む命令を、ロックステップで実行する。命令を、PEへとブロードキャストするのは、制御装置である。特に、SIMDネットワークは、今日大半の並列コンピュータにより使用される、メッセージ送受信パラダイムを使用しない。このことの重要な利点は、SIMDネットワークによる通信は、極めて効率的であり、通信に必要とされる最大の時間を、その特定の通信を制御するアルゴリズムの最悪の場合の時間により決定しうることである。
本節の残りは、拡張型SIMD ASCモデルについて記載することに充てる。ASCは、本論のためのアルゴリズムの設計および開発の中心にある。
連想計算モデル
連想計算(ASC)モデルとは、Goodyear AerospaceのKenneth Batcher博士により設計されたSIMD式連想コンピュータであるSTARAN、および米国海軍で縦横に活用されているその後継モデルであるASPROに基づく拡張型SIMDである。
ケント州立大学コンピュータ科学科で開発された、ASCとは、連想計算のためのアルゴリズムモデルである(Potterら、Computer、27巻(11号):19〜25頁、1994年)(Potter、Associative Computing: A Programming Paradigm for Massively Parallel Computers、Plenum Publishing、1992年)。ASCモデルは、Goodyear Aerospaceにより組み立てられた連想プロセッサーであるSTARAN上およびMPP上の作業から成長した。現在ハードウェアではサポートされていないが、現在の研究努力は、このモデルを効率的にシミュレートし、かつ、このモデルのためにコンピュータを設計しようとしてなされている。
拡張型SIMDモデルとして、ASCでは、マルチタスク処理および非同期的ポイント・ツー・ポイント通信経路決定(asynchronous point-to-point communication routing)の両方を回避する、同期的データ並列プログラミングを使用する。いかなる時点においても、1つのタスクだけが実行され、このタスクの複数のインスタンスは、全てのアクティブな処理エレメント(PE)上で、ロックステップで実行されるので、マルチタスク処理は、不要である。SIMDプログラマーと同様、ASCも、ロードバランシング、同期化、および動的タスクスケジューリングを伴う課題、MPIパラダイムおよび他のMIMDクラスターパラダイムでは明示的に取り組まなくてはならない問題を回避する。
図4は、ASCコンピュータの概念モデルを示す。命令列(IS)としてもまた公知の、単一の制御装置と、各々がそれ固有のローカルメモリを伴う、複数の処理エレメント(PE)とがある。制御装置とPEアレイとは、ブロードキャスト/縮約ネットワーク(reduction network)を介して接続され、PEは、PEデータ相互接続ネットワークを介して一体に接続される。
図4で見られる通り、PEは、それ固有のローカルメモリ内に置かれたデータへのアクセスを有する。データは、その場にとどまり、応答する(アクティブな)PEが、それらのローカルデータを並列的に処理する。連想という語に対する言及は、データを、メモリアドレスではなく、内容により位置決定するための検索の使用に関する。それは、連想メモリを援用せず、その代わりに、ASCモデルとは、一般的なサイクルが、検索する〜処理する〜読み出す(retrieve)である、連想プロセッサーである。ASCモデルについての概観は、(Potterら、Computer、27巻(11号):19〜25頁、1994年)において入手可能である。
アルゴリズムの表形式の特徴は、それ自体、ASCデータ構造本来の表形式の構造に起因して、ASCを使用する計算をもたらす。SWAMPでは、ロックステップによるノースネイバーおよびノースウェストネイバーのデータシフトのための、PE相互接続ネットワークにわたる、高度に効率的な通信、ならびに検索および並列計算にわたる最大値のための、高速定数時間による(fast constant time)連想機能を十分に活用する。
連想演算は、ASCモデルにより必要とされる、追加のハードウェアに起因して、定数時間で実行される(Jinら、15th International Parallel and Distributed Processing Symposium(IPDPS’Ol)Workshops、San Francisco、193頁、2001年)。これらの演算は、任意のSIMD様マシンにより、効率的に(それほど速くはないが)実施することができ、複数のSIMDハードウェアプラットフォーム上で、効率的になされるように適応させることに成功している(Yuanら、Parallel and Distributed Computing Systems(PDCS)、Cambridge、MA、2009年;Trahanら、J. of Parallel and Distributed Computing(JPDC)、2009年)。したがって、SWAMPアルゴリズムおよび他のASCアルゴリズムは、SIMDと近縁の他のシステムであって、ベクトルマシンを含むシステム上でも効率的に実行することができ、このために、モデルは、パラダイムとして使用されている。
制御装置は、プログラムの命令を、フェッチおよび解読し、制御信号を、PEへとブロードキャストする。PEは、制御装置の指示下で、それらの固有のローカルデータを使用して、これらの命令を実行する。全てのPEは、命令を、命令間の暗黙の同期化を伴って、ロックステップ方式で実行する。ASCは、複数の関与性の高速大域演算:連想検索、最大値/最小値検索、およびレスポンダーの選択/検出を有する。これらについては、以下の節において記載される。
連想機能
SWAMPアルゴリズムに関与性の機能については、下記で論じる。
連想検索
ASCアルゴリズムにおける基礎的演算は、連想検索である。連想検索では、そのローカルデータが、所与の検索キーにマッチするPEを、同時に位置決定する。マッチするデータを有するPEは、レスポンダーと呼ばれ、非マッチしないデータを伴うPEは、非レスポンダーと呼ばれる。検索を実施した後、次いで、アルゴリズムは、非レスポンダーを無効化することにより、さらなる処理を、レスポンダーに影響を及ぼす処理だけに制限することができる(またはこの逆も成り立つ)。さらなる検索を実施することにより、レスポンダーのセットをさらに精緻化することができる。連想検索は、どのPEが、対角成分内の並列動作中でアクティブなのかを選択するときに、SWAMP+により縦横に活用される。
最大値/最小値検索
各PEが、標準的な比較演算子(等しい、未満など)を使用して、そのローカルデータを、検索キーに照らして比較する、単純検索に加えて、連想コンピュータはまた、全PEアレイからのデータを一体に組み合わせて、レスポンダーのセットを決定する、大域検索も実施しうる。大域検索の最も一般的な種類は、レスポンダーを、それらのデータが、全PEアレイにわたる最大値または最小値であるPEとする、最大値/最小値検索である。SWAMP+は、それが処理するあらゆる対角成分内で最大値を使用して、それまでに計算された最高値を探知ける。最大値検索の使用は、高頻度で、論理的並列動作において1回ずつ、アライメント当たりm+n回生じる。
レスポンダーの選択/検出
連想検索は、複数のレスポンダーを結果としてもたらすことが可能であり、連想アルゴリズムは、3つの異なるモード:並列選択、逐次選択、または単独選択のうちの1つにおいて、これらのレスポンダーを処理しうる。並列レスポンダー処理では、同じ演算セットを、各レスポンダーに対して、同時に実施する。逐次レスポンダー処理では、各レスポンダーを、個別に選択し、各レスポンダーについて、異なる演算セットを許容する。単独レスポンダー選択(pickOneとしてもまた公知の)では、1つの任意選択されたレスポンダーを選択して、処理にかける。複数のレスポンダーに加えてまた、連想検索は、レスポンダーを結果としてもたらさない可能性もある。この場合を取り扱うために、ASCモデルでは、その場合に、別個のアクションのセットを検索および実施するのに任意のレスポンダー(anyRespondersとして公知の)が存在するのかどうかを検出することが可能である。SWAMPでは、アラインされた文字を含有する複数のレスポンダーを、上述の連想検索に基づき、並列的に選択および処理する。単独レスポンダー選択は、最大値/最小値検索を使用する場合に、正確な同じ最大値を有する複数の値が存在する場合、または存在するときに、生じる。
PE相互接続ネットワーク
大半の連想プロセッサーは、アレイ内の並列データの移動を可能とする、一部の種類のPE相互接続ネットワークを含む。ASCモデルそれ自体は、任意の特定の相互接続ネットワークを指定せず、実際、多くの有用な連想アルゴリズムは、相互接続ネットワークを必要としない。連想プロセッサーは、1D線形アレイまたは2Dメッシュなど、単純なネットワークを実装することが典型的である。これらのネットワークは、実装が簡単であり、データを、迅速に、同期方式で転送することを可能とする。例えば、1D線形アレイは、SWAMPアルゴリズムにおける、PE間の明示的通信に十分である。
並列計算システム
一般化された並列処理アーキテクチャーを、図5に示す。各コンポーネントは、直接的な接続を有するものとして示されるが、多様なエレメントは、地理的に隔てられうるが、ネットワーク、例えば、インターネットを介して、接続されうることを理解されたい。ハイブリッドコンフィギュレーションも可能であるが、並列コンピュータ内のメインメモリは、単一のアドレス空間内の全ての処理エレメント間で共有されているか、または分散されている、すなわち、各処理エレメントが、それ固有のローカルアドレス空間を有することが典型的である。(分散型メモリとは、メモリが論理的に分散されているという事実を指すがまた、それが、物理的に分散されていることもしばしば示唆する)。処理エレメントが、それ固有のローカルメモリおよび非ローカルプロセッサー上のメモリへのアクセスを有する場合、分散共有メモリおよびメモリの視覚化は、2つの手法を組み合わせる。ローカルメモリへのアクセスは、非ローカルメモリへのアクセスより速いことが典型的である。
メインメモリの各エレメントに、等しい待ち時間およびバンド幅でアクセスしうる、コンピュータアーキテクチャーは、ユニフォームメモリアクセス(UMA:Uniform Memory Access)システムとして公知である。UMAは、メモリが物理的に分散されていない、共有メモリシステムだけにより達成しうることが典型的である。この特性を有さないシステムは、非ユニフォームメモリアクセス(NUMA:Non−Uniform Memory Access)アーキテクチャーとして公知である。分散型メモリシステムは、非ユニフォームメモリアクセスを有する。
プロセッサー間通信およびプロセッサー−メモリ間通信は、共有(マルチポート型またはマルチプレックス型)メモリ、クロスバースイッチ、共有バス、またはスター、リング、ツリー、ハイパーキューブ、ファットハイパーキューブ(ノードにおいて複数のプロセッサーを伴うハイパーキューブ)、またはn次元メッシュを含む無数のトポロジーを有する相互接続ネットワークを介する方式を含む、複数の方式で、ハードウェア内に実装することができる。
相互接続されたネットワークに基づく並列コンピュータは、直接的に接続されていないノード間のメッセージの送受信を可能とする経路決定を組み込まなければならない。プロセッサー間の通信に使用される媒体は、大型のマルチプロセッサーマシン内で階層的である可能性が高い。このようなリソースは、市販されていて購入して専用で使用するか、または「クラウド」、例えば、アマゾンクラウドコンピューティングを介して、これらのリソースにアクセスすることができる。
コンピュータは一般に、バスを介してメモリへと連結されたプロセッサーを含む。メモリは、RAMまたはROMを含むことが可能であり、少なくとも1つの有形の非一時的媒体であって、システムが、本明細書で記載される機能を果たすようにさせる実行可能な命令を保存する媒体を含むことが好ましい。当業者であれば、本発明の方法の実施に必要であるかまたは最適であると認識する通り、本発明のシステムは、バスを介して互いに通信する、1または複数のプロセッサー(例えば、中央処理装置(CPU)、グラフィックプロセッサユニット(GPU)など)、コンピュータ読取り型記憶デバイス(例えば、メインメモリ、スタティックメモリなど)、またはこれらの組合せを含む。
プロセッサーは、当技術分野で公知の、任意の適切なプロセッサーであって、Intel(Santa Clara、CA)により、XEON E7という商標で販売されているプロセッサー、またはAMD(Sunnyvale、CA)により、OPTERON 6200という商標で販売されているプロセッサーなどのプロセッサーでありうる。
メモリは、コンピュータ読取り型記憶デバイスを指す場合があり、命令(例えば、本明細書で見出される任意の方法または機能を統合するソフトウェア)、データ(例えば、患者の染色体内で見出される遺伝子配列など、任意の有形の物理オブジェクトを統合すること)、またはこれらの両方の1または複数のセットが保存された、任意のマシン読取り型媒体を含みうる。例示的な実施形態では、コンピュータ読取り型記憶デバイスは、単一の媒体でありうるが、「コンピュータ読取り型記憶デバイス」という用語は、命令またはデータの1または複数のセットを保存する、単一の媒体または複数の媒体(例えば、集中型データベースもしくは分散型データベース、ならびに/または関連するキャッシュおよびサーバー)を含むものと理解されたい。したがって、「コンピュータ読取り型記憶デバイス」という用語は、限定なしに、ソリッドステートメモリ(例えば、加入者識別モジュール(SIM)カード、セキュアディジタルカード(SDカード)、マイクロSDカード、またはソリッドステートドライブ(SSD))、光学媒体および磁気媒体、ならびに他の任意の有形記憶媒体を含むものと理解されたい。好ましくは、コンピュータ読取り型記憶デバイスは、有形の非一時的媒体を含む。このような非一時的媒体は、例えば、一過性の波動および信号を除外する。「非一時的メモリ」は、信号それ自体など、コンピュータ読取り型伝送媒体を除外すると解釈されたい。
本発明に従う入力/出力デバイスは、ビデオディスプレイユニット(例えば、液晶ディスプレイ(LCD)またはブラウン管(CRT)モニター)、英数字入力デバイス(例えば、キーボード)、カーソル制御デバイス(例えば、マウスまたはトラックバッド)、ディスクドライブユニット、信号発生器(例えば、スピーカー)、タッチスクリーン、加速度計、マイクロフォン、セルラー式ラジオ波アンテナ、および、例えば、ネットワークインターフェースカード(NIC)、Wi−Fiカード、またはセルラー式モデムでありうる、ネットワークインターフェースデバイスを含みうる。
試料の収集および調製
本発明は、生物学的試料から回収された核酸に対応する配列(例えば、核酸配列、アミノ酸配列)を作製するための方法を含む。一部の実施形態では、結果として得られる情報を使用して、被験体から得られた核酸材料中に存在する変異を同定することができる。一部の実施形態では、試料、すなわち、核酸(例えば、DNAまたはRNA)を被験体から得、核酸を処理し(溶解させ、増幅し、かつ/または精製し)、下記に記載される方法を使用して、核酸をシーケンシングする。多くの実施形態では、シーケンシングの結果は、直鎖状の核酸配列ではなく、数千または数百万もの個々の短い核酸リードであって、被験体についての配列へと再アセンブルしなければならない核酸リードのコレクションである。リードをアラインして配列を作製したら、アラインされた配列を、基準配列と比較して、例えば、疾患を指し示し得る変異を同定することができる。他の実施形態では、リードの、基準配列構築物、すなわち、上記で記載した、有向非巡回グラフ(「DAG」)に対するアライメントに基づき、特定の変異を有する被験体を同定することができる。
上記の目的のうちのいずれのためにも、方法を生物学的試料へと適用することができる。生物学的試料は、例えば、血液試料、全血、血漿、涙液、乳首吸引物、血清、糞便、尿、唾液、循環細胞、組織、生検試料、毛包、または患者の生物学的材料を含有する他の試料を含みうる。このような試料に基づき検査を行うときの1つの問題は、大半の場合において、目的の変異を含有するDNAまたはRNAであって、試料中に存在しうるDNAまたはRNAは、ごく微量でありうることである。これは、とりわけ、口腔内スワブ試料または血液試料などの非侵襲的試料であって、変異体核酸が、極めて少量で存在する非侵襲的試料に当てはまる。一部の実施形態では、核酸断片は、天然の短鎖でありうる、すなわち、試料中の関与性の核酸のランダムなせん断により、短い断片が作り出されうる。他の実施形態では、処理を容易とするため、またはシーケンシング技法では、1000塩基未満、例えば、500塩基未満、例えば、200塩基未満、例えば、100塩基未満、例えば、50塩基未満のリードだけをシーケンシングしうるため、核酸を意図的に断片化する。本明細書で記載される方法を使用して、様々な長さの配列をアラインしうるが、一部の実施形態では、複数の核酸リードの大部分は、シーケンシング法から得られ、1000塩基未満、例えば、500塩基未満、例えば、200塩基未満、例えば、100塩基未満、例えば、50塩基未満を含む。
核酸は、当技術分野で公知の方法により得ることができる。一般に、核酸は、その内容が、参照によりその全体において本明細書に組み込まれる、Maniatisら、Molecular Cloning: A Laboratory Manual、Cold Spring Harbor、N.Y.、280〜281頁(1982年)により記載されている技法など、様々な技法により生物学的試料から抽出することができる。
十分に純粋な核酸調製物を得るためには、まず、試料の抽出物を調製し、次いで、さらなるステップ(すなわち、分別沈殿、カラムクロマトグラフィー、有機溶媒による抽出など)を実施することが必要でありうる。抽出物は、当技術分野における標準的な技法を使用して、例えば、細胞の化学的溶解または機械的溶解により調製することができる。次いで、抽出物は、例えば、濾過および/もしくは遠心分離により、かつ/あるいはイソチオシアン酸グアニジニウムもしくは尿素などのカオトロピック塩、またはフェノールおよび/もしくはHCClなどの有機溶媒によりさらに処理して、任意の夾雑するタンパク質および潜在的に干渉するタンパク質を変性させることができる。一部の実施形態では、試料は、対象試料、例えば、血液試料から収集されたRNA、例えば、mRNAを含みうる。当技術分野では、RNA抽出のための一般的な方法が周知であり、Ausubelら、Current Protocols of Molecular Biology、John Wiley and Sons(1997年)を含む、分子生物学の標準的な教科書において開示されている。パラフィン包埋組織からのRNA抽出のための方法は、例えば、RuppおよびLocker、Lab Invest.、56巻:A67頁(1987年)、およびDe Andresら、BioTechniques、18巻:42044頁(1995年)において開示されている。これらの参考文献の各々の内容は、参照によりそれらの全体において本明細書に組み込まれる。特に、RNAの単離は、Qiagenなど、商業的製造元からの精製キット、緩衝液セット、およびプロテアーゼを、製造元の指示に従い使用して、実施することができる。例えば、培養物中の細胞に由来する全RNAは、Qiagen RNeasy miniカラムを使用して単離することができる。他の市販のRNA単離キットは、MASTERPURE Complete DNA and RNA Purification Kit(EPICENTRE、Madison、Wis.)、およびParaffin Block RNA Isolation Kit(Ambion、Inc.)を含む。組織試料に由来する全RNAは、RNA Stat−60(Tel−Test)を使用して単離することができる。腫瘍から調製されたRNAは、例えば、塩化セシウム密度勾配遠心分離により単離することができる。
解析的シーケンシング
シーケンシングは、当技術分野で公知の任意の方法によることができる。DNAシーケンシング技法は、標識されたターミネーターまたはプライマーおよびスラブ内またはキャピラリー内のゲル分離を使用する、古典的なジデオキシシーケンシング反応(サンガー法)、可逆的終結型標識ヌクレオチドを使用する、合成によるシーケンシング、ピロシーケンシング、454シーケンシング、標識されたオリゴヌクレオチドプローブのライブラリーとの、対立遺伝子特異的ハイブリダイゼーション、標識されたクローンのライブラリーとの対立遺伝子特異的ハイブリダイゼーションに続いてライゲーションを使用する、合成によるシーケンシング、重合化ステップの間における、標識されたヌクレオチドの組込みについての、リアルタイムモニタリング、ポロニーシーケンシング、およびSOLiDシーケンシングを含む。分離された分子のシーケンシングは、より近年になって、ポリメラーゼまたはリガーゼを使用する、逐次的伸長反応または単一の伸長反応によるほか、プローブのライブラリーとの単一のディファレンシャルハイブリダイゼーションまたは逐次的なディファレンシャルハイブリダイゼーションによっても裏付けられている。シーケンシングの前に、試料中の核酸の一部または全部を増幅することは、さらに有益でありうる。一部の実施形態では、核酸を、当技術分野で公知のポリメラーゼ連鎖反応(PCR)技法を使用して増幅する。
本発明の方法で使用されうるシーケンシング技術の一例は、DNAまたはRNAを増幅するのに活用されうる、合成によるポリメラーゼベースの配列(polymerase-based sequence-by-synthesis)である、Illuminaシーケンシング(例えば、MiSeq(商標)プラットフォーム)である。DNAのためのIlluminaシーケンシングは、固体表面上のDNAの増幅であって、フォールドバックPCRおよびアンカリングされたプライマーを使用する増幅に基づく。ゲノムDNAを、断片化し、アダプターを、断片の5’末端および3’末端へと付加する。フローセルチャネルの表面へと結合させたDNA断片を伸長させ、ブリッジ増幅する。断片は二本鎖となり、二本鎖分子を変性させる。複数サイクルにわたる固相増幅に続く変性により、フローセルの各チャネル内に、同じ鋳型の約1,000コピーの一本鎖DNA分子による数百万のクラスターを創製することができる。プライマー、DNAポリメラーゼ、および4つのフルオロフォアで標識された可逆的終結型ヌクレオチドを使用して、逐次シーケンシングを実施する。ヌクレオチド組込みの後、レーザーを使用して、フルオロフォアを励起し、画像を捕捉し、第1の塩基の同定を記録する。3’側ターミネーターおよび組み込まれた各塩基からフルオロフォアを除去し、組込みステップ、検出ステップ、および同定ステップを繰り返す。Illuminaシーケンシングを使用して、RNAを検出する場合、試料のRNA発現を決定するために、RNA断片を単離および増幅することを除き、同じ方法が適用される。配列は、シーケンサーで直接情報を取った後、生物学的配列および品質スコアを保存するための、テキストベースのフォーマットである、FASTQファイルなどのデータファイルに出力することができる(上記の議論を参照されたい)。
本発明の方法で使用されうるDNAシーケンシング技法の別の例は、Life Technologies製のIon Torrent(商標)シーケンシングである。それらの各々の内容が、参照によりその全体において本明細書に組み込まれる、米国特許出願第2009/0026082号、同第2009/0127589号、同第2010/0035252号、同第2010/0137143号、同第2010/0188073号、同第2010/0197507号、同第2010/0282617号、同第2010/0300559号、同第2010/0300895号、同第2010/0301398号、および同第2010/0304982号を参照されたい。Ion Torrent(商標)シーケンシングでは、DNAを、約300〜800塩基対の断片へとせん断すると、断片は、平滑末端となる。次いで、オリゴヌクレオチドアダプターを、断片の末端へとライゲーションする。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして働く。断片を、表面へと結合させ、断片が個別に分解可能となるような分解能で結合する(attached)。1または複数のヌクレオチドの付加により、プロトン(H)が放出され、このシグナルは、シーケンシング計器により検出および記録される。シグナル強度は、組み込まれたヌクレオチドの数に比例する。Ion Torrentデータはまた、FASTQファイルとしても出力される。
本発明の方法で使用されうるDNAシーケンシング技法およびRNAシーケンシング技法の別の例は、454(商標)シーケンシング(Roche)(Margulies, Mら、2005年、Nature、437巻、376〜380頁)である。454(商標)シーケンシングは、合成によるシーケンシング技術であって、ピロシーケンシングもまた活用する技術である。DNAの454(商標)シーケンシングは、2つのステップを伴う。第1のステップでは、DNAを、約300〜800塩基対の断片へとせん断し、断片は、平滑末端となる。次いで、オリゴヌクレオチドアダプターを、断片の末端へとライゲーションする。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして働く。断片は、例えば、5’−ビオチンタグを含有するAdaptor Bを使用して、DNA捕捉ビーズ、例えば、ストレプトアビジンでコーティングされたビーズへと結合させることができる。ビーズへと結合させた断片は、油−水エマルジョンの液滴内でPCR増幅する。結果は、各ビーズ上でクローン増幅されたDNA断片の複数のコピーである。第2のステップでは、ビーズを、ウェル(ピコリットルサイズの)内で捕捉する。ピロシーケンシングは、各DNA断片に対して並行的に実施する。1または複数のヌクレオチドの付加により、光シグナルが発生し、この光を、シーケンシング計器内のCCDカメラで記録する。シグナル強度は、組み込まれたヌクレオチドの数に比例する。ピロシーケンシングでは、ヌクレオチドが付加されると放出される、ピロリン酸(PPi)を使用する。PPiは、アデノシン5’ホスホ硫酸の存在下で、ATPスルフリラーゼにより、ATPへと転換される。ルシフェラーゼは、ATPを使用して、ルシフェリンを、オキシルシフェリンへと転換し、この反応が、光を発生させ、これが検出および解析される。別の実施形態では、ピロシーケンシングを使用して、遺伝子発現を測定する。RNAについてのピロシーケンシングも、DNAについてのピロシーケンシングと同様に適用され、部分rRNA遺伝子配列(partial rRNA gene sequencings)を微小ビーズへと結合させ、次いで、結合物を個々のウェルに入れることにより達成する。次いで、遺伝子発現プロファイルを決定するために、結合させた部分rRNA配列を増幅する。Sharon Marsh、Pyrosequencing(登録商標) Protocols、Methods in Molecular Biology、373巻、15〜23頁(2007年)。
本発明の方法で使用されうるDNA検出技法およびRNA検出技法の別の例は、SOLiD(商標)技術(Applied Biosystems)である。SOLiD(商標)技術システムとは、ライゲーションベースのシーケンシング技術であって、DNAおよびRNAのいずれについての超並列次世代シーケンシングを行うのにも活用されうる技術である。DNA SOLiD(商標)シーケンシングでは、ゲノムDNAを、断片へとせん断し、アダプターを、断片の5’末端および3’末端へと結合させて、断片ライブラリーを生成する。あるいは、内部アダプターは、アダプターを、断片の5’末端および3’末端へとライゲーションし、断片を環状化し、環状化させた断片を消化させて、内部アダプターを生成し、アダプターを、結果として得られる断片の5’末端および3’末端へと結合させて、メートペア(MP:mate−paired)ライブラリーを生成することにより導入することができる。次に、クローンビーズ集団を、ビーズ、プライマー、鋳型、およびPCR成分を含有するマイクロリアクター内で調製する。PCR後、鋳型を変性させ、ビーズを富化して、伸長した鋳型を伴うビーズを分離する。選択されたビーズ上の鋳型を、スライドガラスへの結合を可能とする3’修飾にかける。配列は、逐次ハイブリダイゼーションと、中央部の決定された塩基(または塩基対)であって、特異的なフルオロフォアにより同定される塩基を伴う、部分的にランダムなオリゴヌクレオチドのライゲーションとにより決定することができる。色を記録した後で、ライゲーションされたオリゴヌクレオチドを切断および除去し、次いで、プロセスを繰り返す。
他の実施形態では、SOLiD(商標)遺伝子発現連鎖解析(SAGE:Serial Analysis of Gene Expression)を使用して、遺伝子発現を測定する。遺伝子発現連鎖解析(SAGE)とは、各転写物についての個別のハイブリダイゼーションプローブを準備する必要なしに、多数の遺伝子転写物についての同時的で定量的な解析を可能とする方法である。まず、タグが、各転写物内の固有の位置から得られることを条件として、短い配列タグ(約10〜14bp)であって、転写物を固有に同定するのに十分な情報を含有するタグを生成する。次いで、多くの転写物を併せて連結して、長い連鎖分子であって、シーケンシングすることが可能であり、複数のタグの識別を同時に明らかにする分子を形成する。転写物の任意の集団の発現パターンは、個々のタグの存在度を決定し、各タグに対応する遺伝子を同定することにより、定量的に評価することができる。さらなる詳細については、例えば、それらの各々の内容が、参照によりそれらの全体において本明細書に組み込まれる、Velculescuら、Science、270巻:484〜487頁(1995年);およびVelculescuら、Cell、88巻:243〜51頁(1997年)を参照されたい。
本発明の方法で使用されうる別のシーケンシング技法は、例えば、Helicosの真の1分子のシーケンシング(tSMS:True Single Molecule Sequencing)(Harris T. D.ら(2008年)、Science、320巻:106〜109頁)を含む。tSMS技法では、DNA試料を、約100〜200ヌクレオチドの鎖へと切断し、polyA配列を、各DNA鎖の3’末端へと付加する。各鎖を、蛍光標識されたアデノシンヌクレオチドの付加により標識する。次いで、DNA鎖を、フローセル表面へと固定化された、数百万ものオリゴ−T捕捉部位を含有するフローセルとハイブリダイズさせる。鋳型は、1cm当たりの鋳型約1億個の密度でありうる。次いで、フローセルを、計器、例えば、HeliScope(商標)シーケンサーへとローディングし、レーザーでフローセルの表面を照射し、各鋳型の位置を明らかにする。CCDカメラにより、フローセル表面上の鋳型の位置をマッピングすることができる。次いで、鋳型の蛍光標識を、切断し、洗い落とす。DNAポリメラーゼと、蛍光標識されたヌクレオチドとを導入することにより、シーケンシング反応を開始する。オリゴ−T核酸は、プライマーとして働く。ポリメラーゼにより、標識されたヌクレオチドを、プライマーへと、鋳型指向的な様式で組み込む。ポリメラーゼおよび組み込まれなかったヌクレオチドは、除去する。蛍光標識されたヌクレオチドの組込みを方向付けた鋳型は、フローセル表面をイメージングすることにより検出する。イメージングの後、切断ステップにより、蛍光標識を除去し、所望のリード長が達成されるまで、他の蛍光標識されたヌクレオチドについても、プロセスを繰り返す。配列情報は、各ヌクレオチドの付加ステップにより収集する。tSMSについてのさらなる記載は、例えば、Lapidusら(米国特許第7,169,560号)、Lapidusら(米国特許出願第2009/0191565号)、Quakeら(米国特許第6,818,395号)、Harris(米国特許第7,282,337号)、Quakeら(米国特許出願第2002/0164629号)、およびBraslavskyら、PNAS(USA)、100巻:3960〜3964頁(2003年)において示されており、これらの参考文献の各々の内容は、参照によりその全体において本明細書に組み込まれている。
本発明の方法で使用されうるシーケンシング技術の別の例は、DNAおよびRNAのいずれもシーケンシングする、Pacific Biosciencesによる単一分子リアルタイム(SMRT:single molecule,real−time)技術を含む。SMRTでは、4つのDNA塩基の各々を、4つの異なる蛍光色素のうちの1つへと結合させる。これらの色素は、リン酸連結されている(phospholinked)。単一のDNAポリメラーゼを、鋳型である一本鎖DNAの単一の分子と共に、ゼロモード導波管(ZMW:zero−mode waveguide)の底部に固定化する。ZMWとは、単一のヌクレオチドの、DNAポリメラーゼによる組込みの、ZMWの内外へと急速に(数マイクロ秒間で)拡散する蛍光ヌクレオチドのバックグラウンドに対する観察を可能とする閉じ込め構造である。ヌクレオチドを成長しつつある鎖へと組み込むには、数ミリ秒間かかる。この時間中に、蛍光標識が励起され、蛍光シグナルをもたらし、蛍光タグが切断される。色素の対応する蛍光の検出により、どの塩基が組み込まれたのかが指し示される。プロセスを繰り返す。RNAをシーケンシングするためには、ZMWでは、DNAポリメラーゼを、逆転写酵素で置きかえ、相応のプロセスに従う。
本発明の方法で使用されうるシーケンシング技法の別の例は、ナノ細孔シーケンシング(Soni G VおよびMeller, A、Clin Chem、53巻:1996〜2001頁、2007年)である。ナノ細孔とは、直径が1ナノメートルのオーダーの小孔である。ナノ細孔を、導電性流体中に浸漬し、ナノ細孔にわたり電位を印加する結果として、ナノ細孔を通るイオンの伝導に起因する微弱な電流がもたらされる。流れる電流の量は、ナノ細孔のサイズに対して感受性である。DNA分子が、ナノ細孔を通って通過するとき、DNA分子上の各ヌクレオチドは、ナノ細孔を、異なる程度で閉塞させる。こうして、DNA分子が、ナノ細孔を通って通過するときに、ナノ細孔を通って通過する電流の変化は、DNA配列の読取りを表示する。
本発明の方法で使用されうるシーケンシング技法の別の例は、化学感受性電界効果トランジスター(chemFET:chemical−sensitive field effect transistor)アレイを使用して、DNAをシーケンシングするステップ(例えば、米国特許出願公開第20090026082号において記載されている)を伴う。技法の一例では、DNA分子を、反応チャンバー内に入れることができ、鋳型分子を、ポリメラーゼに結合したシーケンシングプライマーへとハイブリダイズさせることができる。シーケンシングプライマーの3’末端における、1または複数の三リン酸の、新たな核酸鎖への組込みは、電流の変化によって、chemFETにより検出することができる。アレイは、複数のchemFETセンサーを有しうる。別の例では、単一の核酸を、ビーズへと結合させることができ、核酸を、ビーズ上で増幅することができ、個々のビーズを、chemFETアレイ上の個々の反応チャンバーであって、各チャンバーがchemFETセンサーを有するチャンバーへと移送することができ、核酸をシーケンシングすることができる。
本発明の方法で使用されうるシーケンシング技法の別の例は、電子顕微鏡(Moudrianakis E. N.およびBeer M.、Proc Natl Acad Sci USA.、1965年3月、53巻:564〜71頁)を使用するステップを伴う。技法の一例では、電子顕微鏡を使用して識別可能な金属標識を使用して、個々のDNA分子を標識する。次いで、これらの分子を、平面上で伸長させ、配列を測定するのに電子顕微鏡を使用してイメージングする。
さらなる検出法では、マイクロアレイへの結合を、後続の蛍光検出または非蛍光検出、質量分析的方法を使用する、バーコードによる質量検出、発せられたラジオ波の検出、アラインされたバーコードからの散乱光の検出、定量的PCR法またはディジタルPCR法を使用する蛍光の検出のために活用することができる。比較核酸ハイブリダイゼーションアレイとは、患者の試料DNA中のコピー数バリエーションを検出するための技法である。試料DNAと、基準DNAとを、例えば、顕著に異なるフルオロフォアを使用して、異なる様式で標識し、次いで、多数のプローブとハイブリダイズさせる。次いで、試料および基準の蛍光強度を測定し、次いで、蛍光強度比を使用して、コピー数バリエーションを計算する。比較ゲノムハイブリダイゼーションアレイの方法については、Shinawi M、Cheung SW、The array CGH and its clinical applications、Drug Discovery Today、13巻(17〜18号):760〜70頁においてより詳細に論じられている。マイクロアレイによる検出から、FASTQファイルを直接作製することはできないが、マイクロアレイシーケンサーにより作成されたデータを、FASTQまたは同様のフォーマットへと転換するプログラムが利用可能である。
DNA分子、RNA分子、およびコピー数を検出する別の方法は、蛍光in situハイブリダイゼーション(FISH:fluorescent in situ hybridization)である。In Situ Hybridization Protocols(Ian Darby編、2000年)。FISHとは、DNA配列内の変異およびコピー数変動など、特異的な染色体再配列を検出する、分子細胞遺伝学技法である。DNA分子を化学的に変性させ、2つの鎖へと分離する。次いで、一本鎖プローブを、変性させたDNA鎖と共にインキュベートする。一本鎖プローブ(signals stranded probe)は、標的配列部分に応じて選択され、相補的配列部分に対する高アフィニティーを有する。プローブは、反復配列プローブ、全染色体プローブ、および遺伝子座特異的プローブを含みうる。インキュベート中に、組み合わされたプローブとDNA鎖とをハイブリダイズさせる。次いで、任意のバリエーションを評価するために、結果を、顕微鏡下で視覚化および定量する。
別の実施形態では、MassARRAY(商標)ベースの遺伝子発現プロファイリング法を使用して、遺伝子発現を測定する。Sequenom,Inc.(San Diego、Calif.)により開発されたMassARRAY(商標)ベースの遺伝子発現プロファイリング法では、RNAの単離および逆転写の後、得られたcDNAを、単一の塩基を除く全て位置において、ターゲティングされるcDNA領域にマッチし、内部標準として働く、合成DNA分子(コンペティター)とスパイクする。cDNA/コンペティター混合物を、PCR増幅し、PCR後、小エビアルカリホスファターゼ(SAP)酵素処理にかけ、その結果として、残りのヌクレオチドの脱リン酸化をもたらす。アルカリホスファターゼを不活化させた後、コンペティターおよびcDNAに由来するPCR産物を、プライマー伸長にかけ、これにより、コンペティターに由来するPCR産物およびcDNAに由来するPCR産物について、顕著に異なる質量シグナルを発生させる。精製後、これらの産物を、マトリックス支援レーザー脱着イオン化飛行時間質量分析(MALDI−TOF MS:matrix−assisted laser desorption ionization time−of−flight mass spectrometry)による解析に必要とされる成分をあらかじめローディングされたチップアレイ上に分注する。次いで、反応物中に存在するcDNAを、作成された質量スペクトル内のピーク面積の比を解析することにより定量する。さらなる詳細については、例えば、DingおよびCantor、Proc. Natl. Acad. Sci. USA、100巻:3059〜3064頁(2003年)を参照されたい。
さらなるPCRベースの技法は、例えば、ディファレンシャルディスプレイ(LiangおよびPardee、Science、257巻:967〜971頁(1992年));増幅フラグメント長多型(iAFLP)(Kawamotoら、Genome Res.、12巻:1305〜1312頁(1999年));BeadArray(商標)技術(Illumina、San Diego、Calif.;Oliphantら、Discovery of Markers for Disease(Biotechniquesへの付録)、2002年6月;Fergusonら、Analytical Chemistry、72巻:5618頁(2000年));市販のLuminex100LabMAPシステムおよび複数色でコードされたマイクロスフェア(Luminex Corp.、Austin、Tex.)を、遺伝子発現のための迅速アッセイで使用される、遺伝子発現の検出のためのビーズアレイ(BADGE)(Yangら、Genome Res.、11巻:1888〜1898頁(2001年));ならびに高カバレッジ発現プロファイリング(HiCEP)解析(Fukumuraら、Nucl. Acids. Res.、31巻(16号)e94頁(2003年))を含む。それらの各々の内容が、参照によりそれらの全体において本明細書に組み込まれる。
ある特定の実施形態ではまた、遺伝子発現の変動も、例えば、Affymetrix(Santa Clara、CA)から市販されているアレイなど、ナイロン膜アレイ、マイクロチップアレイ、およびスライドガラスアレイを含む、マイクロアレイ技法を使用して、同定または確認することができる。一般に、RNA試料は、単離され、逆転写を介して、標識されたcDNAへと転換される。次いで、標識されたcDNAを、ナイロン膜、マイクロチップ、またはスライドガラス上で、目的の細胞または組織に由来する、特異的なDNAプローブとハイブリダイズさせる。次いで、ハイブリダイズさせたcDNAを検出および定量し、結果として得られる遺伝子発現データを、解析のために対照と比較することができる。標識化法、ハイブリダイゼーション法、および検出法は、マイクロアレイの支持体が、ナイロン膜であるのか、マイクロチップであるのか、スライドガラスであるのかに応じて変化する。ナイロン膜アレイは、P−dNTPで標識されたプローブとハイブリダイズさせることが典型的である。スライドガラスアレイは、2つの顕著に異なる、蛍光標識されたヌクレオチドによる標識化を伴うことが典型的である。マイクロアレイを作製し、遺伝子産物の発現(例えば、RNAまたはタンパク質)を決定するための方法は、その内容が参照によりその全体において本明細書に組み込まれる、Yeatmanら(米国特許出願第2006/0195269号)に示されている。
一部の実施形態では、質量分析(MS)による解析は、生物学的試料中の、本明細書で開示される、1または複数のバイオマーカーの存在および/または量を決定するのに、単独で使用することもでき、他の方法(例えば、イムノアッセイまたはRNA測定アッセイ)と組み合わせることもできる。一部の実施形態では、MS解析は、例えば、ダイレクトスポットMALDI−TOFまたは液体クロマトグラフィーMALDI−TOF質量分析による解析など、マトリックス支援レーザー脱着イオン化(MALDI)飛行時間(TOF)MS解析を含む。一部の実施形態では、MS解析は、例えば、液体クロマトグラフィー(LC)ESI−MSなどのエレクトロスプレーイオン化(ESI)MSを含む。質量分析は、市販の分光光度計を使用して達成することができる。当技術分野では、MALDI−TOF MSおよびESI−MSを含むMS解析を活用して、生物学的試料中のバイオマーカーペプチドの存在および量を検出するための方法が公知である。さらなる指針については、例えば、それらの各々が参照によりその全体において本明細書に組み込まれる、米国特許第6,925,389号;同第6,989,100号;および同第6,890,763号を参照されたい。
本発明の方法、配列構築物、およびシステムを伴う使用のためのタンパク質配列は、当業者に公知の多数の技法を使用して決定することができる。例えば、アミノ酸配列およびアミノ酸配列リードは、質量分析により、またはエドマン分解を使用して、タンパク質またはタンパク質の部分を解析することにより作製することができる。質量分析は、例えば、ダイレクトスポットMALDI−TOFまたは液体クロマトグラフィーMALDI−TOF質量分析による解析などの、マトリックス支援レーザー脱着イオン化(MALDI)飛行時間(TOF)MS解析、例えば、液体クロマトグラフィー(LC)ESI−MSなどのエレクトロスプレーイオン化(ESI)MS、またはMS−MSなど、他の技法を含みうる。エドマン分解による解析は、Model 49X Prociseタンパク質/ペプチドシーケンサー(Applied Biosystems/Life Technologies)など、市販の計器を使用して実施することができる。シーケンシングされたアミノ酸配列、すなわち、ポリペプチド、すなわち、タンパク質は、少なくとも10アミノ酸の長さ、例えば、少なくとも20アミノ酸の長さ、例えば、少なくとも50アミノ酸の長さでありうる。
参照による組込み
本開示を通して特許、特許出願、特許公開、雑誌、書籍、論文、ウェブコンテンツなど、他の文献に対する言及および引用を行ってきた。全てのこのような文献は、参照によりそれらの全体において全て目的で本明細書に組み込まれる。
同等物
当業者には、本明細書で示され、記載される実施形態に加えて、本発明の多様な改変およびその多くのさらなる実施形態も、本明細書で引用される研究文献および特許文献への言及を含む、本明細書の全内容から明らかとなろう。本明細書における対象物は、その多様な実施形態における本発明およびその同等物の実施に適応させうる、重要な情報、例示、および指針を含有する。
構造変異体を含有するリードの一貫した、信頼できるアライメントにより、他のやり方ではアラインされない配列として廃棄される可能性がある配列データを捕捉することが可能になる。このことから、本発明のアルゴリズムおよび基準構築物を使用して構造バリエーションの近傍に位置する稀な変異体を捕捉する。稀な変異体とは、試料または集団内に約5%未満、好ましくは約1%未満の頻度で存在する変異体である。本発明の目的に関して、稀な変異体は、「表示されない」変異体、すなわち、使用される基準に反映されない変異体も含まれ得、それは、線形的な基準配列(既存の方法では)または本発明の基準構築物である。例えば、構造変異体に近接する(したがって、配列リードは構造変異体および稀な変異体の少なくとも一部を含む)稀な変異体を、構造変異体と共に本発明の基準構築物にアラインする。配列リード内の構造変異体が基準構築物に適切にアライメントされるので、構造変異体のアライメントの直接の結果として、構造変異体に近接する稀な変異体は、他のやり方で十分にアラインされた信頼できる多数のリードに存在する。稀な変異体が一貫して存在することにより、それがシーケンシングエラーではなく、正当な遺伝的変異体として認識されるようになる。本明細書に記載のマルチパスアライメント手法を使用することにより、線形的な基準アライメント手法を使用すると見落とされる可能性がある稀な配列の変異の分解能を可能とする。
本発明は、例えば、以下の項目も提供する。
(項目1)
複数の核酸リードをアラインするための方法であって、
複数の核酸リードを得るステップであり、少なくとも1つの核酸リードが、構造バリエーションの少なくとも一部に対応する配列を含む、ステップと;
第1の位置において少なくとも2つの代替配列を含む基準配列構築物を提供するステップであり、該代替配列のうちの1つが、該構造バリエーションを含む、ステップと;
該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと;
各核酸リードを、各核酸リードごとの該スコアが最大化されるような該構築物内の場所にアラインし、それにより、少なくとも1つの該リードを、該構造バリエーションを含む該代替配列にアラインするステップと
を含む方法。
(項目2)
前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、項目1に記載の方法。
(項目3)
前記構造バリエーションが少なくとも100bpの長さである、項目1に記載の方法。
(項目4)
少なくとも1つの核酸リードが、前記構造バリエーションの近傍に変異を含む、項目1に記載の方法。
(項目5)
前記変異が、前記構造バリエーションから100bpまたはそれ未満離れている、項目4に記載の方法。
(項目6)
前記アラインするステップが、前記変異の存在を同定することをさらに含む、項目4に記載の方法。
(項目7)
前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの追加の代替配列をさらに含み、該追加の代替配列のうちの1つが、前記基準配列に対する変異を表示する、項目6に記載の方法。
(項目8)
前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、項目7に記載の方法。
(項目9)
前記構造バリエーションが、約1キロベース〜約3メガベースの長さである、項目1に記載の方法。
(項目10)
公知の前記構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、項目1に記載の方法。
(項目11)
前記変異が、稀な変異体である、項目4に記載の方法。
(項目12)
前記変異が、種の中で5%またはそれ未満の頻度でマイナー対立遺伝子を含む、項目4に記載の方法。
(項目13)
前記変異が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、項目4に記載の方法。
(項目14)
前記変異が、前記基準構築物内で表示されていない、項目4に記載の方法。
(項目15)
前記基準配列構築物を通る経路が、生物体のゲノムを表示する、項目1に記載の方法。
(項目16)
前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、項目1に記載の方法。
(項目17)
前記基準配列構築物を通る経路が、非巡回経路である、項目1に記載の方法。
(項目18)
複数の核酸リードをアラインするための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
複数の核酸リードを、記号の文字列として得て、ここで少なくとも1つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し;
基準配列構築物内の第1の位置において、少なくとも2つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも2つの異なる記号の文字列のうちの1つは、該公知の構造バリエーションを表示し;
核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し;
各リードについて、最高のスコアに対応する該重複を同定し;
核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインする
ことを該プロセッサーにさせる命令を含む、システム。
(項目19)
前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、項目18に記載のシステム。
(項目20)
前記公知の構造バリエーションが少なくとも100塩基対の長さである、項目18に記載のシステム。
(項目21)
公知の構造バリエーションの少なくとも一部に対応する前記記号の文字列が、稀な変異体を表示する記号をさらに含む、項目18に記載のシステム。
(項目22)
前記稀な変異体が、前記構造バリエーションの一部から、100bpまたはそれ未満を表示する記号により分離されている、項目21に記載のシステム。
(項目23)
前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する前記記号の文字列が該第2の位置における該代替の記号の文字列のうちの1つにアラインされる、項目21に記載のシステム。
(項目24)
前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、項目23に記載のシステム。
(項目25)
前記公知の構造バリエーションが、約1キロベースから3メガベースの間の長さである、項目18に記載のシステム。
(項目26)
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、項目18に記載のシステム。
(項目27)
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
複数の核酸配列リードを、基準配列構築物内の位置において少なくとも2つの代替配列を含む該構築物に適用するステップであり、該代替配列のうちの1つが、構造バリエーションを含むステップと;
該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと;
各リードごとの該スコアが最大化されるように各リードを該構築物内の場所にアラインするステップと;
該構造バリエーションの近傍にある稀な変異体を、それまでに該基準構築物内に存在しなかった該構造バリエーションの近傍にある配列として同定するステップと
を含む方法。
(項目28)
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
複数の核酸配列リードを得るステップと;
該リードを、基準配列構築物内の位置において少なくとも2つの代替配列を含む該構築物に適用するステップであり、そのうちの1つが構造バリエーションである、ステップと;
該基準構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと;
各リードごとの該スコアが最大化されるように各リードを該構築物上の場所にアラインするステップと;
該基準構築物上にアラインされる構造バリエーションの近傍にある稀な変異体を同定するステップと
を含む方法。
(項目29)
前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、項目28に記載の方法。
(項目30)
前記構造バリエーションが少なくとも100bpの長さである、項目28に記載の方法。
(項目31)
少なくとも1つの核酸リードが、前記稀な変異体を含む、項目28に記載の方法。
(項目32)
前記稀な変異体が、前記ゲノムの構造バリエーションと100bpまたはそれ未満離れている、項目31に記載の方法。
(項目33)
前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの追加の代替配列をさらに含み、該追加の代替配列のうちの1つが、前記稀な変異体を表示する、項目28に記載の方法。
(項目34)
前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの追加の代替配列をさらに含み、該追加の代替配列のいずれも前記稀な変異体を表示しない、項目28に記載の方法。
(項目35)
前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、項目33に記載の方法。
(項目36)
前記構造バリエーションが約1キロベース〜約3メガベースの長さである、項目35に記載の方法。
(項目37)
前記稀な変異体が、変異体コールフォーマット(VCF)ファイルにおいてそれまでに同定されていない、項目28に記載の方法。
(項目38)
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、項目28に記載の方法。
(項目39)
前記稀な変異体が、種の中で5%またはそれ未満の頻度でマイナー対立遺伝子を含む、項目28に記載の方法。
(項目40)
前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、項目28に記載の方法。
(項目41)
前記稀な変異体が前記基準構築物内で表示されない、項目28に記載の方法。
(項目42)
前記基準配列構築物を通る経路が、生物体のゲノムを表示する、項目28に記載の方法。
(項目43)
前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、項目28に記載の方法。
(項目44)
前記基準配列構築物を通る経路が、非巡回経路である、項目28に記載の方法。
(項目45)
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
複数の核酸リードを、記号の文字列として得て、ここで少なくとも1つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し;
基準配列構築物内の第1の位置において、少なくとも2つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも2つの異なる記号の文字列のうちの1つは、該公知の構造バリエーションを表示し;
核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し;
各リードについて、最高のスコアに対応する該重複を同定し;
核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインし;
少なくとも1つの記号の文字列内の稀な変異体を同定する
ことを該プロセッサーにさせる命令を含む、システム。
(項目46)
前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、項目45に記載のシステム。
(項目47)
前記公知の構造バリエーションが少なくとも100塩基対の長さである、項目45に記載のシステム。
(項目48)
前記稀な変異体が、前記構造バリエーションの一部から、100bpまたはそれ未満を表示する記号によって分離されている、項目45に記載のシステム。
(項目49)
前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する該記号の文字列が、該第2の位置における該代替の記号の文字列のうちの1つにアラインされる、項目45に記載のシステム。
(項目50)
前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、項目49に記載のシステム。
(項目51)
前記公知の構造バリエーションが、約1キロベースから3メガベースの間の長さである、項目45に記載のシステム。
(項目52)
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、項目45に記載のシステム。
(項目53)
前記稀な変異体が、種の中で5%またはそれ未満の頻度でマイナー対立遺伝子を含む、項目45に記載のシステム。
(項目54)
前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、項目45に記載のシステム。
(項目55)
前記稀な変異体が、前記基準構築物内で表示されない、項目45に記載のシステム。

Claims (55)

  1. 複数の核酸リードをアラインするための方法であって、
    複数の核酸リードを得るステップであり、少なくとも1つの核酸リードが、構造バリエーションの少なくとも一部に対応する配列を含む、ステップと;
    第1の位置において少なくとも2つの代替配列を含む基準配列構築物を提供するステップであり、該代替配列のうちの1つが、該構造バリエーションを含む、ステップと;
    該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと;
    各核酸リードを、各核酸リードごとの該スコアが最大化されるような該構築物内の場所にアラインし、それにより、少なくとも1つの該リードを、該構造バリエーションを含む該代替配列にアラインするステップと
    を含む方法。
  2. 前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、請求項1に記載の方法。
  3. 前記構造バリエーションが少なくとも100bpの長さである、請求項1に記載の方法。
  4. 少なくとも1つの核酸リードが、前記構造バリエーションの近傍に変異を含む、請求項1に記載の方法。
  5. 前記変異が、前記構造バリエーションから100bpまたはそれ未満離れている、請求項4に記載の方法。
  6. 前記アラインするステップが、前記変異の存在を同定することをさらに含む、請求項4に記載の方法。
  7. 前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの追加の代替配列をさらに含み、該追加の代替配列のうちの1つが、前記基準配列に対する変異を表示する、請求項6に記載の方法。
  8. 前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、請求項7に記載の方法。
  9. 前記構造バリエーションが、約1キロベース〜約3メガベースの長さである、請求項1に記載の方法。
  10. 公知の前記構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、請求項1に記載の方法。
  11. 前記変異が、稀な変異体である、請求項4に記載の方法。
  12. 前記変異が、種の中で5%またはそれ未満の頻度でマイナー対立遺伝子を含む、請求項4に記載の方法。
  13. 前記変異が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、請求項4に記載の方法。
  14. 前記変異が、前記基準構築物内で表示されていない、請求項4に記載の方法。
  15. 前記基準配列構築物を通る経路が、生物体のゲノムを表示する、請求項1に記載の方法。
  16. 前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、請求項1に記載の方法。
  17. 前記基準配列構築物を通る経路が、非巡回経路である、請求項1に記載の方法。
  18. 複数の核酸リードをアラインするための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
    複数の核酸リードを、記号の文字列として得て、ここで少なくとも1つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し;
    基準配列構築物内の第1の位置において、少なくとも2つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも2つの異なる記号の文字列のうちの1つは、該公知の構造バリエーションを表示し;
    核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し;
    各リードについて、最高のスコアに対応する該重複を同定し;
    核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインする
    ことを該プロセッサーにさせる命令を含む、システム。
  19. 前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、請求項18に記載のシステム。
  20. 前記公知の構造バリエーションが少なくとも100塩基対の長さである、請求項18に記載のシステム。
  21. 公知の構造バリエーションの少なくとも一部に対応する前記記号の文字列が、稀な変異体を表示する記号をさらに含む、請求項18に記載のシステム。
  22. 前記稀な変異体が、前記構造バリエーションの一部から、100bpまたはそれ未満を表示する記号により分離されている、請求項21に記載のシステム。
  23. 前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する前記記号の文字列が該第2の位置における該代替の記号の文字列のうちの1つにアラインされる、請求項21に記載のシステム。
  24. 前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、請求項23に記載のシステム。
  25. 前記公知の構造バリエーションが、約1キロベースから3メガベースの間の長さである、請求項18に記載のシステム。
  26. 前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、請求項18に記載のシステム。
  27. ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
    複数の核酸配列リードを、基準配列構築物内の位置において少なくとも2つの代替配列を含む該構築物に適用するステップであり、該代替配列のうちの1つが、構造バリエーションを含むステップと;
    該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと;
    各リードごとの該スコアが最大化されるように各リードを該構築物内の場所にアラインするステップと;
    該構造バリエーションの近傍にある稀な変異体を、それまでに該基準構築物内に存在しなかった該構造バリエーションの近傍にある配列として同定するステップと
    を含む方法。
  28. ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
    複数の核酸配列リードを得るステップと;
    該リードを、基準配列構築物内の位置において少なくとも2つの代替配列を含む該構築物に適用するステップであり、そのうちの1つが構造バリエーションである、ステップと;
    該基準構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと;
    各リードごとの該スコアが最大化されるように各リードを該構築物上の場所にアラインするステップと;
    該基準構築物上にアラインされる構造バリエーションの近傍にある稀な変異体を同定するステップと
    を含む方法。
  29. 前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、請求項28に記載の方法。
  30. 前記構造バリエーションが少なくとも100bpの長さである、請求項28に記載の方法。
  31. 少なくとも1つの核酸リードが、前記稀な変異体を含む、請求項28に記載の方法。
  32. 前記稀な変異体が、前記ゲノムの構造バリエーションと100bpまたはそれ未満離れている、請求項31に記載の方法。
  33. 前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの追加の代替配列をさらに含み、該追加の代替配列のうちの1つが、前記稀な変異体を表示する、請求項28に記載の方法。
  34. 前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの追加の代替配列をさらに含み、該追加の代替配列のいずれも前記稀な変異体を表示しない、請求項28に記載の方法。
  35. 前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、請求項33に記載の方法。
  36. 前記構造バリエーションが約1キロベース〜約3メガベースの長さである、請求項35に記載の方法。
  37. 前記稀な変異体が、バリアントコールフォーマット(VCF)ファイルにおいてそれまでに同定されていない、請求項28に記載の方法。
  38. 前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、請求項28に記載の方法。
  39. 前記稀な変異体が、種の中で5%またはそれ未満の頻度でマイナー対立遺伝子を含む、請求項28に記載の方法。
  40. 前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、請求項28に記載の方法。
  41. 前記稀な変異体が前記基準構築物内で表示されない、請求項28に記載の方法。
  42. 前記基準配列構築物を通る経路が、生物体のゲノムを表示する、請求項28に記載の方法。
  43. 前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、請求項28に記載の方法。
  44. 前記基準配列構築物を通る経路が、非巡回経路である、請求項28に記載の方法。
  45. ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
    複数の核酸リードを、記号の文字列として得て、ここで少なくとも1つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し;
    基準配列構築物内の第1の位置において、少なくとも2つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも2つの異なる記号の文字列のうちの1つは、該公知の構造バリエーションを表示し;
    核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し;
    各リードについて、最高のスコアに対応する該重複を同定し;
    核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインし;
    少なくとも1つの記号の文字列内の稀な変異体を同定する
    ことを該プロセッサーにさせる命令を含む、システム。
  46. 前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、請求項45に記載のシステム。
  47. 前記公知の構造バリエーションが少なくとも100塩基対の長さである、請求項45に記載のシステム。
  48. 前記稀な変異体が、前記構造バリエーションの一部から、100bpまたはそれ未満を表示する記号によって分離されている、請求項45に記載のシステム。
  49. 前記基準配列構築物が、該基準構築物の第2の位置において少なくとも2つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する該記号の文字列が、該第2の位置における該代替の記号の文字列のうちの1つにアラインされる、請求項45に記載のシステム。
  50. 前記第1の位置と前記第2の位置が、100bpまたはそれ未満離れている、請求項49に記載のシステム。
  51. 前記公知の構造バリエーションが、約1キロベースから3メガベースの間の長さである、請求項45に記載のシステム。
  52. 前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、請求項45に記載のシステム。
  53. 前記稀な変異体が、種の中で5%またはそれ未満の頻度でマイナー対立遺伝子を含む、請求項45に記載のシステム。
  54. 前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、請求項45に記載のシステム。
  55. 前記稀な変異体が、前記基準構築物内で表示されない、請求項45に記載のシステム。
JP2016518122A 2013-09-30 2014-09-30 配列変異体を検出するための方法およびシステム Pending JP2016540275A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361884380P 2013-09-30 2013-09-30
US14/041,850 2013-09-30
US61/884,380 2013-09-30
US14/041,850 US9116866B2 (en) 2013-08-21 2013-09-30 Methods and systems for detecting sequence variants
PCT/US2014/058328 WO2015048753A1 (en) 2013-09-30 2014-09-30 Methods and system for detecting sequence variants

Publications (1)

Publication Number Publication Date
JP2016540275A true JP2016540275A (ja) 2016-12-22

Family

ID=52744601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016518122A Pending JP2016540275A (ja) 2013-09-30 2014-09-30 配列変異体を検出するための方法およびシステム

Country Status (9)

Country Link
EP (1) EP3053073B1 (ja)
JP (1) JP2016540275A (ja)
KR (2) KR102446941B1 (ja)
CN (1) CN105793859B (ja)
AU (2) AU2014324438B2 (ja)
CA (1) CA2925335C (ja)
HK (1) HK1226158A1 (ja)
SG (1) SG11201602306SA (ja)
WO (1) WO2015048753A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
CA2927102C (en) 2013-10-18 2022-08-30 Seven Bridges Genomics Inc. Methods and systems for genotyping genetic samples
US11049587B2 (en) 2013-10-18 2021-06-29 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2015058095A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for quantifying sequence alignment
AU2014337093B2 (en) 2013-10-18 2020-07-30 Seven Bridges Genomics Inc. Methods and systems for identifying disease-induced mutations
US9063914B2 (en) 2013-10-21 2015-06-23 Seven Bridges Genomics Inc. Systems and methods for transcriptome analysis
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
WO2016141294A1 (en) 2015-03-05 2016-09-09 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US10793895B2 (en) 2015-08-24 2020-10-06 Seven Bridges Genomics Inc. Systems and methods for epigenetic analysis
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US10724110B2 (en) 2015-09-01 2020-07-28 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US11347704B2 (en) 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US10364468B2 (en) 2016-01-13 2019-07-30 Seven Bridges Genomics Inc. Systems and methods for analyzing circulating tumor DNA
US10262102B2 (en) 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
US10790044B2 (en) 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
US11289177B2 (en) 2016-08-08 2022-03-29 Seven Bridges Genomics, Inc. Computer method and system of identifying genomic mutations using graph-based local assembly
US11250931B2 (en) 2016-09-01 2022-02-15 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
US10319465B2 (en) 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
CN106709276A (zh) * 2017-01-21 2017-05-24 深圳昆腾生物信息有限公司 一种基因变异成因分析方法及系统
US10726110B2 (en) 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis
US11347844B2 (en) 2017-03-01 2022-05-31 Seven Bridges Genomics, Inc. Data security in bioinformatic sequence analysis
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
CN108154007B (zh) * 2017-11-28 2021-06-29 西安电子科技大学 一种基于单肿瘤样本拷贝数变异及缺失类型检测方法
IL283427B2 (en) * 2018-01-15 2023-10-01 Illumina Inc Identifying variants using Empiric ranking of variants
SE541799C2 (en) 2018-04-11 2019-12-17 David Yudovich Determination of frequency distribution of nucleotide sequence variants
CN111091870B (zh) * 2019-12-18 2021-11-02 中国科学院大学 基因变异位点质量控制方法及系统
CN113641628B (zh) * 2021-08-13 2023-06-16 中国联合网络通信集团有限公司 数据质量检测方法、装置、设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
CA2415775A1 (en) 2000-07-18 2002-01-24 Correlogic Systems, Inc. A process for discriminating between biological states based on hidden patterns from biological data
NO20004869D0 (no) 2000-09-28 2000-09-28 Torbjoern Rognes Metode for hurtig optimal lokal sekvensjustering ved bruk av parallell prosessering
JP2004523243A (ja) 2001-03-12 2004-08-05 カリフォルニア インスティチュート オブ テクノロジー 非同期性塩基伸長によってポリヌクレオチド配列を分析するための方法および装置
US6890763B2 (en) 2001-04-30 2005-05-10 Syn X Pharma, Inc. Biopolymer marker indicative of disease state having a molecular weight of 1350 daltons
WO2003095978A2 (en) 2002-05-09 2003-11-20 Surromed, Inc. Methods for time-alignment of liquid chromatography-mass spectrometry data
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20060195266A1 (en) 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
GB2457851B (en) 2006-12-14 2011-01-05 Ion Torrent Systems Inc Methods and apparatus for measuring analytes using large scale fet arrays
US20100035252A1 (en) 2008-08-08 2010-02-11 Ion Torrent Systems Incorporated Methods for sequencing individual nucleic acids under tension
US20100301398A1 (en) 2009-05-29 2010-12-02 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8546128B2 (en) 2008-10-22 2013-10-01 Life Technologies Corporation Fluidics system for sequential delivery of reagents
DK2511843T3 (en) * 2009-04-29 2017-03-27 Complete Genomics Inc METHOD AND SYSTEM FOR DETERMINING VARIATIONS IN A SAMPLE POLYNUCLEOTIDE SEQUENCE IN TERMS OF A REFERENCE POLYNUCLEOTIDE SEQUENCE
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
US8673627B2 (en) 2009-05-29 2014-03-18 Life Technologies Corporation Apparatus and methods for performing electrochemical reactions
US20110098193A1 (en) * 2009-10-22 2011-04-28 Kingsmore Stephen F Methods and Systems for Medical Sequencing Analysis
US9165109B2 (en) * 2010-02-24 2015-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US9342651B2 (en) * 2010-05-13 2016-05-17 Life Technologies Corporation Computational methods for translating a sequence of multi-base color calls to a sequence of bases
WO2012098515A1 (en) * 2011-01-19 2012-07-26 Koninklijke Philips Electronics N.V. Method for processing genomic data
US20120239706A1 (en) 2011-03-18 2012-09-20 Los Alamos National Security, Llc Computer-facilitated parallel information alignment and analysis
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly

Also Published As

Publication number Publication date
SG11201602306SA (en) 2016-04-28
AU2014324438A1 (en) 2016-04-14
EP3053073B1 (en) 2019-07-03
AU2020201622A1 (en) 2020-03-19
EP3053073A1 (en) 2016-08-10
CA2925335A1 (en) 2015-04-02
KR102446941B1 (ko) 2022-09-23
CA2925335C (en) 2023-03-28
EP3053073A4 (en) 2017-06-07
CN105793859A (zh) 2016-07-20
CN105793859B (zh) 2020-02-28
HK1226158A1 (zh) 2017-09-22
WO2015048753A1 (en) 2015-04-02
KR20220136449A (ko) 2022-10-07
AU2020201622B2 (en) 2022-03-17
KR20160062127A (ko) 2016-06-01
AU2014324438B2 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
US11837328B2 (en) Methods and systems for detecting sequence variants
US20210280272A1 (en) Methods and systems for quantifying sequence alignment
US20210398616A1 (en) Methods and systems for aligning sequences in the presence of repeating elements
US11211146B2 (en) Methods and systems for aligning sequences
US20190272891A1 (en) Methods and systems for genotyping genetic samples
KR102446941B1 (ko) 서열 변이체 검출 방법 및 시스템
JP2016533182A (ja) 疾患に誘導された変異を同定するための方法およびシステム