JP7297774B2 - 構造変異の分析 - Google Patents

構造変異の分析 Download PDF

Info

Publication number
JP7297774B2
JP7297774B2 JP2020544593A JP2020544593A JP7297774B2 JP 7297774 B2 JP7297774 B2 JP 7297774B2 JP 2020544593 A JP2020544593 A JP 2020544593A JP 2020544593 A JP2020544593 A JP 2020544593A JP 7297774 B2 JP7297774 B2 JP 7297774B2
Authority
JP
Japan
Prior art keywords
read
scaffold
density
sequence
read pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020544593A
Other languages
English (en)
Other versions
JP2021502126A (ja
JP2021502126A5 (ja
Inventor
エイチ. パトナム,ニコラス
ジョン トロール,クリストファー
Original Assignee
ダブテイル ゲノミクス エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ダブテイル ゲノミクス エルエルシー filed Critical ダブテイル ゲノミクス エルエルシー
Publication of JP2021502126A publication Critical patent/JP2021502126A/ja
Publication of JP2021502126A5 publication Critical patent/JP2021502126A5/ja
Application granted granted Critical
Publication of JP7297774B2 publication Critical patent/JP7297774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Artificial Intelligence (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

相互参照
本出願は、2017年11月9日出願の米国仮出願第62/583,974号の利益を主張するものであり、この文献は参照によって全体として本明細書に組み込まれる。
高品質の高度に連続したゲノム配列を生成することは、理論上および事実上、依然として困難である。この問題は、ゲノム配列、フェージング情報、または他の遺伝子情報を回復しようとする試みが、ホルマリン固定パラフィン包埋(FFPE)サンプルなどの保存サンプルからの望ましい場合に、悪化する。配列決定のコストと時間の削減は、利用可能な生のゲノムデータの量を増大させたが、効率的かつ正確な方法でデータを分析かつ組み立てるのに適切な方法の不足は、本配列決定技術を限定する主要因である。
引用による組み込み
本明細書で言及される出願公開、特許、および特許出願は全て、あたかも個々の出願公開、特許、または特許出願がそれぞれ参照により組み込まれるように具体的かつ個々に指示されるように同じ程度にまで、参照により本明細書に組み込まれる。本明細書で言及される出願公開、特許、および特許出願はすべて、本明細書で引用される任意の文献と同様に、全体として参照することで本明細書に組み込まれる。
本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、a)リードペア情報を基準核酸スキャホールド上にマッピングする工程;b)リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にあるように、リードペア位置を第1のビンに割り当てる工程;およびc)第1のビンのマッピング可能性値に基づいてコピー数変異を推定する工程を含む。場合によっては、方法はさらに、コピー数変異を標準化する工程を含む。加えて、方法はさらに、2つのサンプルのマッピングされたリード密度を互いに対してプロットすることにより、マッピング可能性を視覚化する工程を含む。
本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、a)リードペア情報を基準核酸スキャホールド上にマッピングする工程;b)リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にあるように、リードペア位置を第1のビンに割り当てる工程;c)リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程;d)画像中の共通の角を共有する4つのピクセルの少なくとも1つの群に対してzスコアを算出する工程であって、zスコアは隣接するピクセル間の対比によって表される、工程;およびe)zスコアが閾値を超えたときに候補ヒットを識別する工程を含む。場合によっては、基準核酸スキャホールドはゲノムである。多くの場合、各データセットは、異なるペアエンドリード方向から得られる。候補ヒットは、転座、逆位、欠失、重複、および染色体間の構造変異のうち1つ以上から選択されることが、企図される。
本明細書には、サンプル中の対立遺伝子変異の混合物をモデル化するためのシステムが提供される。そのようなシステムの一部は、重み付きゲノム・スキャホールド・モデルのセットであって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、セット;およびライブラリーによりサンプリングされたリードペアがビンの中にあるかを予測するために少なくとも2つのゲノム・スキャホールド・モデルの対数尤度の比率を算出するためのモジュールを含む。場合によっては、本明細書中のシステムはさらに、少なくとも1つの特徴検出器モジュールを含み、少なくとも1つの特徴検出器モジュールはゲノム・スキャホールド・モデルの候補修飾を提案する。多くの場合、少なくとも1つの特徴検出器モジュールは、配列変異体のビン境界を決定する。配列変異は、転座、逆位、欠失、および重複のうち1つ以上から選択されることが、企図される。多くの場合、システムはさらに、少なくとも1つの特徴検出器モジュールからの入力に基づいて代替モデルを生成するモジュールを含む。
本明細書には、サンプル中の対立遺伝子変異をモデル化するための方法が提供される。そのような方法の一部は、a)重み付きゲノム・スキャホールド・モデルのセットを生成する工程であって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、工程;b)基準配列上にマッピングされたリードペア配列決定情報を説明するモデルの能力に基づいてスコアを算出する工程であって、より高いスコア値はより多くの予測モデルを示す、工程;およびc)スコア値を最大限にするために付加的なモデルを反復して加える工程を含む。リードペア配列決定情報は、逆位、転座、重複、および欠失のうち1つ以上を含むことが、企図される。場合によっては、方法はさらに、特徴を検出する工程を含み、特徴を検出する工程は、スコア値を増大させるためにモデルにおいてビンを結合または分離する工程を含む。多くの場合、サンプルは癌細胞である。
本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、a)リードペア情報を予測された核酸スキャホールド上にマッピングする工程;b)リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にあるように、リードペア位置を第1のビンに割り当てる工程;c)リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程;およびd)共通の結合配列フラグメントにより接続される2つの配列フラグメントに対応する二次元画像中の少なくとも1つの特徴を識別する工程を含む。多くの場合、方法は、正確な順序で共通の結合配列フラグメントにより接続される2つの配列フラグメントをアセンブルする工程を含む。時折、方法は、偽陽性に対応する特徴を切り捨てる工程を含む。
本明細書に提供される方法は、以下を含む:リードペア配列情報を配列スキャホールド上へマッピングする工程;およびそのようにマッピングされた複数のリード・ペア・シンボルの密度の局所的変異を識別する工程。場合によっては、方法は、密度の局所的変異を対応する構造配置特徴に割り当てる工程を含む。多くの場合、方法は、密度の局所的変異が減少するように配列スキャホールドを再構成する工程を含む。時折、リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペアを示すシンボルを位置決めする工程を含み、これにより、配列スキャホールドを表す軸からのシンボルの距離が、配列スキャホールド上のリードペアの第1のリードのマッピング位置から、配列スキャホールド上のリードペアの第2のリードのマッピング位置までの距離を示し、かつ、配列スキャホールドを表す軸に対するシンボルの位置は、リードペアの第1のリードペアのマッピング位置と、リードペアの第2のリードのマッピング位置との平均を示す。時折、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む。代替的に、または組み合わせにおいて、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグを再配向する工程を含む。多くの場合、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグへ区切りを導入する工程を含む。時折、方法はさらに、区切りの一端に存在する配列を区切りの他端に導入する工程を含む。場合によっては、配列スキャホールドを再構成する工程は、第1のコンティグの部分を第2のコンティグの内部領域へと転座させる工程を含む。時折、リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペア情報を複数のビンに割り当てる工程を含む。多くの場合、密度の局所的変異を識別する工程は、シンボルの密度が局所的に低い領域を識別する工程を含む。代替的に、密度の局所的変異を識別する工程は、シンボルの密度が局所的に高い領域を識別する工程を含む。時折、密度の局所的変異を識別する工程は、第1の位置の密度、および第2の位置の密度を識別する工程を含み、第1の位置の密度および第2の位置の密度は、大きく異なっている。場合によっては、第1の位置と第2の位置は隣接している。多くの場合、第1の位置および第2の位置は、配列スキャホールドから等距離にある。時折、密度の局所的変異を識別する工程は、第1の位置の予測密度、および第1の位置の観察密度を得る工程を含む。多くの場合、第1の位置の予測密度は、配列スキャホールドを表す軸からの距離の増加に応じて単調的に減少する密度勾配により予測された密度である。随意に、サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す。場合によっては、スキャホールドは癌細胞ゲノムを表す。代替的に、または組み合わせにおいて、スキャホールドはトランスジェニック細胞ゲノムを表す。随意に、スキャホールドは遺伝子編集されたゲノムを表す。多くの場合、スキャホールドは、再構成後に少なくとも20%を超えるN50を有する。
本明細書には、配列スキャホールド情報を含むスキャホールドを得る工程を含む方法が提供される。そのような方法の一部は、ペアリード情報を得る工程;少なくとも一部のリードペア情報を表すことで、スキャホールドに対するリードペアの各リードの位置を示し、かつスキャホールドにマッピングされるようなリード間の距離を示すように、ペアリード情報を展開する工程;および展開時のペアリード情報の密度の局所的変異を識別する工程を含む。場合によっては、方法は、密度の局所的変異を対応する構造配置特徴に割り当てる工程を含む。時折、方法は、局所的変異を減らすようにスキャホールドを再構成する工程を含む。多くの場合、配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを配列決定する工程を含む。代替的に、または組み合わせにおいて、配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを表すデジタル情報を受信する工程を含む。時折、方法は、展開されたリードペア情報に対して予測された密度分布を得る工程を含む。多くの場合、識別する工程は、予測された密度分布と、表されたリードペア情報密度との有意差を識別する工程を含む。代替的に、または組み合わせにおいて、局所的変異を識別する工程は、密度ピークが直角の頂点にある密度摂動を識別する工程を含む。場合によっては、直角の頂点はスキャホールドを表す軸を指す。多くの場合、ペアエンドリード情報を得る工程は、未抽出の核酸を架橋する工程を含む。時折、ペアエンドリード情報を得る工程は、クロマチンにおいて結合された核酸を架橋する工程を含む。多くの場合、クロマチンはネイティブクロマチンである。代替的に、または組み合わせにおいて、ペアエンドリード情報を得る工程は、核酸を核酸結合部分に結合させる工程を含む。場合によっては、ペアエンドリード情報を得る工程は、再構成されたクロマチンを生成する工程を含む。多くの場合、ペアリード情報を展開する工程は、リードペア情報を複数のビンに割り当てる工程を含む。時折、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む。代替的に、または組み合わせにおいて、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグを再配向する工程を含む。時折、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグへ区切りを導入する工程を含む。多くの場合、方法は、区切りの一端にする配列を区切りの他端に導入する工程を含む。時折、配列スキャホールドを再構成する工程は、第1のコンティグの部分を第2のコンティグの内部領域へと転座させる工程を含む。場合によっては、スキャホールドは癌細胞ゲノムを表す。時折、スキャホールドはトランスジェニック細胞ゲノムを表す。代替的に、または組み合わせにおいて、スキャホールドは遺伝子編集された細胞ゲノムを表す。多くの場合、スキャホールドは、再構成後に少なくとも20%を超えるN50を有する。時折、サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す。
本明細書には、配列スキャホールドに対してサンプル中の構造再編成を識別する方法が提供される。そのような方法の一部は、リードペア配列情報を配列スキャホールド上へマッピングする工程;配列スキャホールドに対応するとともに直角縁部を二分する線に沿って左右対称である軸を指す直角縁部を持つ、局所的密度変異を識別する工程;および局所的密度変異のマッピングされたリードが最も遠くにある限り、転座ポイントからの長さの部分を含む配列スキャホールドに対して単純な転座を有するものとして、サンプルを分類する工程を含む。
本明細書には、サンプル中の構造再編成を識別する方法が提供される。そのような方法の一部は、リードペア配列情報を配列スキャホールド上へマッピングする工程;配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程;直角縁部を二分する線に沿って左右対称に分裂する局所的密度変異のサブ領域を識別する工程;および対称性を修復するリードペアの集団がマッピングされる配列を欠く部分を含む配列スキャホールドに対して転座を有すると、サンプルを分類する工程を含む。
本明細書には、配列スキャホールドに対してサンプル中の構造再編成を識別する方法が提供される。そのような方法の一部は、リードペア配列情報を配列スキャホールド上へマッピングする工程;配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程;予想されるリードペア密度分布曲線を得る工程;局所的密度変異を含むリードペアがマッピングされるスキャホールド部分を識別する工程;局所的密度変異を含むリードペアが、局所的密度変異の密度を持つと予測されたリードペア密度分布曲線により示される領域にマッピングされるように、スキャホールド部分を再び位置決めする工程を含む。
本明細書には、本明細書に記載される方法の何れかの結果を表示するよう構成されたコンピューターモニターが提供される。
本明細書には、本明細書に記載される方法の何れかの計算工程を実行するよう構成されたコンピューターシステムが提供される。
本明細書には、本明細書に記載される、または本明細書に記載される方法を使用して生成される、マッピングされたリードペアデータの視覚表示が提供される。
本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、リードペア情報を予測された核酸スキャホールド上にマッピングする工程;構造変異仮定を得る工程;構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程;および仮定に対する尤度パラメーターが、第2の仮定に対する第2の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つものと分類する工程を含み、リードペア情報を予測された核酸スキャホールド上にマッピングする工程は、リードペアをリードペア位置に割り当てる工程を含み、これにより、リードペアは、1つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、および、リードペアは、第2の軸上のリードペア分離に対応する値に割り当てられる。時折、リードペアは、核酸分子の第1の領域にマッピングされる第1の部分、および核酸分子の第2の領域にマッピングされる第2の部分を含み、第1の部分および第2の部分は、隣接しておらず、共通のフェーズを共有する。多くの場合、リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にある場合、リードペア位置は第1のビンに割り当てられる。場合によっては、第1のビンの核酸位置範囲は、予測された核酸スキャホールドの規則的な間隔である。代替的に、または組み合わせにおいて、第1のビンの分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である。時折、第1のビンの核酸範囲は核酸スキャホールドの規則的な間隔であり、第1のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である。場合によっては、リードペアの中点が第2のビン核酸位置範囲内にあり、かつリードペア分離が第2のビン分離範囲内にあるように、リードペア位置は第2のビンに割り当てられる。多くの場合、ほぼすべてのリード情報がビニングされる(binned)。時折、尤度パラメーターを算出する工程は、第1のビンに対する尤度貢献を決定する工程を含む。多くの場合、第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含む。代替的に、または組み合わせにおいて、第1のビンに対する尤度貢献は、第1のビンの領域に比例する第2の尤度因子を含む。時折、第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含み、第1のビンに対する尤度貢献は、第1のビンの領域に比例する第2の尤度因子を含む。多くの場合、方法は、領域が第1のビンと重複していない第2のビンに対する尤度貢献を決定する工程を含む。時折、尤度パラメーターは、第1のビンの尤度貢献および第2のビンの尤度貢献を含む。時折、尤度パラメーターは、第3のビンの尤度貢献を含む。代替的に、または組み合わせにおいて、尤度パラメーターは、ビニングされたほぼすべてのリードペア情報に対する尤度貢献を含む。時折、仮定は、左の縁と長さを有する構造変異を含む。多くの場合、構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも1つである配向を有する。随意に、第2の仮定は、左の縁、長さ、および構造配向のうち少なくとも1つにおいて異なる構造変異を含む。時折、前記核酸構造変異は、前記核酸サンプル中のホモ結合である。代替的に、前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である。
本明細書には、核酸サンプル中の推定上の構造変異を視覚化する方法が提供される。そのような方法の一部は、配列リードの集団を番号付きのビンの集団に割り当てる工程、および前記ビンの集団の第1のビン内にある構造変異縁部を含むリードの尤度パラメーターを割り当てる工程を含み、前記第1のビンに対する前記尤度パラメーターは、第1のビンにマッピングされるリードの数を含む第1の尤度成分、および第1のビンの区域を含む第2の成分を含む。時折、方法は、ビンの数に応じて構造変異の尤度をプロットする工程を含む。頻繁に、前記第1のビンに対する前記尤度パラメーターは、第1のビンにマッピングされる多数のリードを含む第1の尤度成分、および第1のビンの区域を含む第2の成分を含む。代替的に、または組み合わせにおいて、前記尤度パラメーターは、第1のビンにマッピングされるリードの数に構造変異予測を関連づける尤度成分、および第1のビンの領域を含む尤度成分を含む。時折、前記ビンの集団は、固定された核酸距離にわたる共通のビン幅を共有する。時折、前記ビンの集団は、その員の中のビン高さに応じて変動する。多くの場合、ビン高さは、対数軸上でプロットされたときに一定に見える。頻繁に、尤度パラメーターは、配列リードの確率に関連し、これには左の縁および長さを持つ構造変異の結合、および前記第1のビンへのマッピングが含まれる。時折、構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも1つである配向を有する。多くの場合、配列リードはリードペアを含む。時折、リードペアは、核酸分子の第1の領域にマッピングされる第1の部分、および核酸分子の第2の領域にマッピングされる第2の部分を含み、第1の部分および第2の部分は、隣接しておらず、共通のフェーズを共有する。
本明細書には、核酸サンプル中の構造を識別する方法が提供される。そのような方法の一部は、核酸サンプルに対してマッピングされたリードペアデータを得る工程;核酸スキャホールド配列を得る工程;リードペアデータを核酸スキャホールド配列と比較する複数の構造変異仮定の各々に関する、尤度確率情報を得る工程;および構造変異種仮定中の大半の起こり得る仮定を識別する工程を含み;ここで、前記方法は、1分あたり少なくとも10mbの核酸スキャホールド配列を評価する。頻繁に、方法は、リードペア情報を核酸スキャホールド配列上にマッピングする工程;構造変異仮定を得る工程;構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程;および仮定に対する尤度パラメーターが第2の仮定に対する第2の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つと分類する工程を含む。時折、リードペア情報を核酸スキャホールド配列上にマッピングする工程は、リードペアが1つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、かつリードペアが第2の軸上のリードペア分離に対応する値に割り当てられるように、リードペアをリードペア位置に割り当てる工程を含む。多くの場合、前記リードペアは、核酸分子の第1の領域にマッピングされる第1の部分、および核酸分子の第2の領域にマッピングされる第2の部分を含み、第1の部分および第2の部分は、隣接しておらず、共通のフェーズを共有する。時折、リードペア位置は、リードペア中点が第1のビンの核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にある場合、第1のビンに割り当てられる。時折、第1のビンの核酸位置範囲は、核酸スキャホールドの規則的な間隔である。多くの場合、第1のビンの分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である。代替的に、または組み合わせにおいて、第1のビンの核酸位置範囲は核酸スキャホールドの規則的な間隔であり、第1のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である。場合によっては、リードペアの中点が第2のビンの核酸位置範囲内にあり、かつリードペア分離が第2のビンの分離範囲内にある場合、リードペア位置は第2のビンに割り当てられる。頻繁に、ほぼすべてのリード情報がビニングされる。多くの場合、尤度パラメーターを算出する工程は、第1のビンに対する尤度貢献を決定する工程を含む。時折、第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含む。時折、第1のビンに対する尤度貢献は、第1のビンの領域に比例する第2の尤度因子を含む。代替的に、または組み合わせにおいて、第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含み、第1のビンに対する尤度貢献は、第1のビンの領域に比例する第2の尤度因子を含む。頻繁に、方法はさらに、領域が第1のビンと重複していない第2のビンに対する尤度貢献を決定する工程を含む。時折、尤度パラメーターは、第1のビンの尤度貢献および第2のビンの尤度貢献を含む。時折、尤度パラメーターは、第3のビンの尤度貢献を含む。時折、尤度パラメーターは、ビンされたほぼすべてのリードペア情報に対する尤度貢献を含む。時折、仮定は、左の縁と長さを有する構造変異を含む。頻繁に、構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも1つである配向を有する。時折、第2の仮定は、左の縁、長さ、および構造配向のうち少なくとも1つにおいて異なる構造変異を含む。時折、前記核酸構造変異は、前記核酸サンプル中のホモ結合である。代替的に、前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である。
本明細書には、処置レジメンを選択する方法が提供される。そのような方法の一部は、前述の実施形態の何れか1つの方法を実行する工程、再編成を識別する工程、および再編成と一致する処置レジメンを識別する工程を含む。頻繁に、処置レジメンは薬物投与を含む。代替的に、または組み合わせにおいて、処置レジメンは組織切除を含む。
本明細書には、処置レジメンを評価する方法が提供される。そのような方法の一部は、最初に前述の実施形態の何れか1つの方法を実行する工程、処置レジメンを施す工程、および2回目の処置レジメンを実行する工程を含む。時折、方法は処置レジメンを中止する工程を含む。代替的に、方法は処置レジメンの用量を増大させる工程を含む。時折、方法は、処置レジメンの用量を減少させる工程を含む。代替的に、方法は、処置レジメンを継続させる工程を含む。頻繁に、処置レジメンは薬物を含む。多くの場合、処置レジメンは外科的介入を含む。
特許または特許出願のファイルは、色付きで作成された少なくとも1つの図面を含む。色付きの図面を伴う本特許または特許出願公開のコピーが、必要な料金の請求および支払い後に当該事務局によって提供される。
リードペア・ライブラリー・データを分析するためのプロトコルの典型的な概略を表す。 コピー数変異の推定のためのリードペア・ライブラリー・データの視覚表示を表す。 コピー数変異の推定のためのリードペア・ライブラリー・データの視覚表示を表す。 コピー数変異の推定のためのリードペア・ライブラリー・データの視覚表示を表す。 2つのサンプル間のコピー数変異の視覚表示を表す。 リードペア分離のプロットとしてマッピングされたリードペアvsスキャホールドに一致するサンプルのマッピングされたリードペアの中点位置の視覚表示を表す。 リードペア分離のプロットとしてマッピングされたリードペアvs逆位を伴うサンプルのマッピングされたリードペアの中点位置の視覚表示を表す。 リードペア分離のプロットとしてマッピングされたリードペアvs逆位を伴うサンプルのマッピングされたリードペアの中点位置の拡大視覚表示を表す。 点aとbとの間のヘテロ結合逆位に関するマッピングされたリードペアデータの図を表す。 様々な型の構造変異、および、作成される、マッピングされたリードペア密度パターンの型の例を表す。 構造変異に観察された、マッピングされたリードペアデータの一般的な例を表す。 欠失に観察された、マッピングされたリードペアデータの一般的な例を表す。 逆位に観察された、マッピングされたリードペアデータの一般的な例を表す。 直接縦列重複に観察された、マッピングされたリードペアデータの一般的な例を表す。 逆位縦列重複Rに観察された、マッピングされたリードペアデータの一般的な例を表す。 逆位縦列重複Lに観察された、マッピングされたリードペアデータの一般的な例を表す。 対数尤度比率のプロットとしてマッピングされたリードペアデータvs逆位を伴うデータセットのビン数の視覚表示を表す。 対数尤度比率のプロットとしてマッピングされたリードペアデータvsLLRがほぼ0である区域を伴うデータセットのビン数の視覚表示を表す。 対数尤度比率のプロットとしてマッピングされたリードペアデータvs構造変異のない区域を伴うデータセットのビン数の視覚表示を表す。 相互転座を見出すために使用可能な、典型的で単純なカーネルを表す。 相互転座を見出すために使用可能な、典型的で単純なカーネルを表す。 フォアグラウンド(fg)領域とバックグラウンド(bg)領域の比率を使用して特徴を分析する方法を表す。 Zスコア方法を使用して識別された特徴を伴う画像を表す。 染色体内の再編成を例示するスキャホールド上にマッピングされたリードペアデータの画像を表す。 「第2度結合」アセンブリ状況の例を表し、2つの異なるアセンブリ結果は、一次リードペアのみの分析から可能である。 特徴検出を使用した「第2度結合」アセンブリ状況の例を表す。 特徴検出を使用した「第2度結合」アセンブリ状況の例を表す。 特徴検出を使用した「第2度結合」アセンブリ状況の例を表す。 混合物(γ)におけるリードペアの存在量の貢献、およびマッピングされたリードペア密度の変化の予測におけるギャップのサイズ/距離(g)(外形)を示す、2つのプロットを表す。 ETV6とNTRK3との間の相互転座に対応する特徴を伴う画像を表す。 3つの異なるサンプルにおいて比較された染色体の同じペアにおける画像分析に基づく結果を表す。 3つの異なるサンプルにおいて比較された染色体の同じペアにおける画像分析に基づく結果を表す。 3つの異なるサンプルにおいて比較された染色体の同じペアにおける画像分析に基づく結果を表す。 染色体1対染色体7に関する中間の標準化リード密度(10を超えるサンプル)を表す。 染色体2対染色体5に関する中間の標準化リード密度(10を超えるサンプル)を表す。 染色体1対染色体1に関する中間の標準化リード密度(10を超えるサンプル)を表す。 様々なビン取り扱い手法を表す。図12Aは等しいビンのサイズを示す。 様々なビン取り扱い手法を表す。図12Bはビンの補間を示す。 全ゲノム走査分析のパイプラインによる分析を表す。 FFPEベースの「Chicago」リードペアライブラリーに由来するリードペア距離頻度のデータを表す。 ライブラリー古典的「Chicago」ベースのリードペアライブラリーに由来するリードペア距離頻度のデータを表す。 GM12878と基準との間の構造的な差異の付近でプロットされる、リードペアのGRCh38基準配列上のマッピング位置を例示する。図15Aは、隣接する20kbの反復領域を伴う80kbの逆位に関するデータを表す。 GM12878と基準との間の構造的な差異の付近でプロットされる、リードペアのGRCh38基準配列上のマッピング位置を例示する。図15Bは、段階的なヘテロ結合の欠失に関するデータを表す。 基準スキャホールドと比較した、マッピングされたリードペアデータ中の変位部分の誤差を表す。この場合、データの垂直部分(垂線)はプロットの代替「穴」セクション(矢印)に変位されている。 基準スキャホールドと比較した、マッピングされたリードペアデータ中の崩壊部分の誤差を表す。この場合、部分BとB’の両方はスキャホールド上で同じ隣接部分Aにマッピングされている。 基準スキャホールドと比較した、マッピングされたリードペアデータ中の崩壊の反復と誤った結合(misjoin)の誤差を表す。この場合、高度に類似した配列B/Xは、スキャホールド中の単一のアセンブリへと崩壊されている。 スキャホールド上のマッピングされたリードペアデータの質を改善するためにゲノム・スキャホールド・モデルを反復して改善するための、典型的なワークフローを表す。 ジャガイモ染色体に対するモデル最適化の前にスキャホールド上にマッピングされた、リードペアデータの画像を表す。 ジャガイモ染色体に対するモデル最適化の後にスキャホールド上にマッピングされた、リードペアデータの画像を表す。 本明細書で提供される方法を実施するようにプログラムまたは構成される典型的なコンピューターシステムを示す。 本発明の実施形態の一例に関して使用可能なコンピューターシステムの例を例示する。 本発明の実施形態の一例に関連して使用可能なコンピューターシステム(700)のアーキテクチャの第1の例を示すブロック図である。 本発明の実施形態の一例に関連して使用可能な、複数のコンピューターシステム、複数の携帯電話、および個人用携帯情報端末、およびネットワーク接続ストレージ(NAS)を組み込むように構成された、ネットワーク(2100)を実証する略図である。 本発明の実施形態の一例に関連して使用可能な共有仮想アドレスメモリ空間を使用したマルチプロセッサーコンピューターシステム(900)のブロック図である。
本明細書には、核酸サンプルの分析により示されるような配列スキャホールドに対する再編成の検出、視覚化、および較正に関連する方法およびシステムが開示される。再編成は、場合により、ヒト基準ゲノムと比較して評価されるように、ヒトまたは他の癌細胞に大抵生じるゲノム再編成などの、サンプルの一部またはすべてに生じる分子事象を示す。本開示が関連する交互の「再編成」は、概要的な、または以前に公開されたゲノムアセンブリを含み、これに対して相当なコンティグ情報が利用可能であるが、1つ以上のコンティグが誤って位置決めされ、例えば順序ばらばらに配され、実験的に判定されたサンプルに対し誤って配向され、高度に類似した領域が崩壊し、または不正確に結合したコンティグ構成を用いて構成される。
これらの両事例において、本明細書中の方法とシステムの実行により、存在する場合に、以前または同時に生成された配列情報のスキャホールドと、短距離および長距離の物理結合情報を示すデータとの間の誤差の識別が可能になる。本明細書に記載される誤差は多くの場合、カーネル、特徴、またはシンボルと呼ばれる。
構造変異(SV)、コピー数多型(CNV)、ヘテロ結合性(LOH)、単一ヌクレオチド変異体(SNV)、一塩基多型(SNP)、染色体転座、遺伝子融合、および挿入と欠失(INDEL)を含むがこれらに限定されない、フェージング情報、染色体立体配座、配列アセンブリ、および遺伝学的特徴が、本明細書に開示される方法によりもたらされる配列リードデータの分析により判定され得る。遺伝学的特徴の分析のための他の入力は、基準ゲノム(例えばアノテーションを伴う)、ゲノム遮蔽情報、および、候補遺伝子、遺伝子ペア、および/または対象の座標のリストを含み得る。構成パラメーターおよびゲノム遮蔽情報はカスタマイズ可能であり、またはデフォルトパラメーターおよびゲノム遮蔽が使用可能である。
本明細書に記載される方法は、配列決定データの処理に関する様々な工程を利用する。随意に、各工程は、先の工程の結果または考察を利用し、結果または出力をもたらす。場合によっては、工程は省略され、または方法のワークフローにおける追加の工程と置き換えられる。いくつかの例において、配列決定データ(Hi-Cまたは他のペアリードプロトコルに従い生成されたデータなど)は、サンプルの処理および配列決定により得られる。配列決定データの分析のための典型的な工程は、多くの場合、リードマッピング(基準に対して1つの個体からペア配列リードをマッピングする)、リードビニング(1つ以上の特性により読み取られる群)、コピー数推定(コピー数変異、CNV)、標準化、デノボ特徴検出、区切り点の改良、候補のスコア付け、および報告を含む(図1)。これらの工程は、ほんの一例として、特徴を識別かつ報告するための他の工程が、本明細書に記載される方法とシステムとともに使用される場合に、提供される。
リードペアの生成
多くのリードペア生成手法は、本明細書の開示と一致している。典型的な実施形態において、リードペアは、「Hi-C」、または内部に切断された核酸分子間の結合情報を保存するためにネイティブクロマチンまたは再構成クロマチンを用いる関連手法を使用して生成されることで、分子の第1の領域と第2の領域が、それら共通のリン酸ジエステルバックボーンから独立して共に保持される。しかし、本明細書中の方法およびシステムは、広範囲のソースからのリードペアデータと一致しており、すべての実施形態が互いのリードペア生成ソースにより制限されるわけではない。
リードペアデータのマッピング
本明細書中の多くのシステムと方法に共通するものは、スキャホールド配列軸に対して二次元マップとして随意に提示される、ビニングされた一連のリードペアの生成である。そのようなマップ上での局所的密度変異が識別され、リードペアが局所的密度変異を占めるコンティグは、再編成され、再配向され、断片化され、または、コンティグが寄与するスキャホールドを再構成するように操作され、リードペアのビニングされたアレイまたはリードペアの分布マップにおける全体的または局所的な密度変異を減らす。
本明細書で使用されるように、リードペアのデータセットは、リードペアデータがスキャホールド配列に対してビニングまたは位置決めされる場合に、配列スキャホールドにマッピングされる。場合によっては、マッピングされたデータは、コンピューターモニターなどの上で空間的に表示され、または印刷される。代替的に、配列スキャホールドにマッピングされたリードペアのデータセットは、コンピューターのデータ記憶媒体上にデータアレイとして記憶される。リードペアデータは好ましくは、二次元空間上、またはデータアレイ内の特定位置に「ビニング」され、または割り当てられる。随意に、ビンは、マッピングされたリードペアのデータセットのコンピューター画像のピクセルにより表される。
空間的に表されたデータは好ましくは、リードペア分離と、リードペアの個々のリードのマップ位置が、リードペアまたはマップ内の占有されたビンを表すシンボルの位置決めにおいて捕捉されるように、提示される。
例えば、リードペアデータのマッピングに対するいくつかの手法は、垂直に測定されたビンからスキャホールド配列を表す軸までの距離が、リードペアマップの第1のリードと第2のリードとの分離に対応し、かつそれを示し、スキャホールド配列に最も強くアライメントされるように位置決めされるビンに、リードペアを割り当てる工程を含む。すなわち、スキャホールド上で互いに密にアライメントされるリードを持つリードペアは、軸付近のビンに割り当てられ、一方で、互いに長距離離れているリードを有するリードペアは、配列スキャホールドを表す軸からさらに離れたビンに割り当てられる。
随意に組み合わせにおいて、リードペアは、スキャホールド配列を表す軸に沿って位置決めされるので、第1のリードがマッピングされるスキャホールド位置と第2のリードペアがマッピングされるスキャホールド位置との間の中点をほぼまたは正確に表す軸に沿った、最も近くの点を持つ位置またはビンを割り当てられる。データ表示に応じて、軸は、中心軸、または対角線(軸)と称することができる。場合によっては、軸は、水平に、垂直に、対角線上に、又はその他の構成により表示される。
視覚化の一例において、リードペアはゲノムスキャホールドにマッピングされ、各ペアはx座標とy座標がある面に恬として表示され、両座標は、一致するリードペア間の距離に等しい。x-y面は、重複しない正方形ビンへと分割可能であり、各ビンにマッピングされるリードペアの数が作表可能である。ビンの数は、ピクセルに対応させたビンを伴う画像(例えばヒートマップ)として視覚化可能である。場合によっては、本明細書に記載されるリードペアマッピングからのデータは、水平軸を伴うプロット、またはリード密度に対応する強度を伴う2Dプロットとして視覚化される。いくつかの例において、データは処理され、および/または特徴は視覚化工程なしに識別される。
低度の「バックグラウンド」は多くの場合、ビニングまたはリードペアマッピングに観察される。そのようなバックグラウンドは、データアレイまたはマップ視覚化の空のセクターにおける単一の「ナイトスカイ」ビンの点として現れる。定量的に、このバックグラウンドは、リードペアを欠いていると予測され、又は示されるマップまたはデータアレイの領域における、非常に低密度の局所ビンとして現れる。
本開示とは別の多数の技術的要因が、そのような「ナイトスカイ」バックグラウンドを考慮する。要因には、リードペア配列の質、サンプルまたはスキャホールドの「GCパーセンテージ」、または塩基対バイアス、ゲノムにおける全体的または局所的な反復性、リードとスキャホールドとのアライメントの厳密さなどの技術的パラメーターが挙げられる。
リード配列の塩基の要求におけるエラーは、基礎の分子が実際に由来する領域とは別のスキャホールド領域へのリードのアライメントをもたらし得る。歪んだGCパーセンテージまたは反復性により、リードが複数の位置にアライメントされ、または配列決定時の1つの塩基の誤差がリードをスキャホールドの不正確な領域にアライメントさせる可能性が増大する。これらの可能性は、配列決定における塩基の要求の厳密さの調整、またはゲノム領域へのリードの割り当ての厳密さを増大させることにより、減る場合がある。
しかし、これら工程の何れか、または配列の生成とアライメントのプロセスの他の部分での厳密さの増加はおそらく、大量の正確で有益なデータの分析から除外される。ゆえに、個体サンプル、配列決定プロトコル、有機体、または実験目標は、本明細書に開示されるような方法の所定の実施またはシステムの使用において「ナイトスカイ」バックグラウンドが許容される程度を規定し得る。
局所的密度変異の判定
本明細書に開示される方法に従い、多くの場合有益なのは、リードペアデータのアレイ、またはマッピングされたリードペアのデータセットにおける局所的密度変異を評価することである。多数の手法が局所的密度変異の評価に利用可能であるので、データセットのアレイまたはマッピングされたデータセットにおいてカーネルなどの特徴を識別できる。
局所的密度変異の評価は、当業者に既知のあらゆる手法を用いて行われる。例えば、局所的密度が判定され、マッピングされたリードペアのデータセットまたはリードペアのアレイの真隣の領域の密度と比較される。代替的に、局所的密度は、スキャホールド配列により規定される、またはそれに対応する軸に垂直な同等または同様の距離を位置決めされる領域の密度と比較される。
局所的密度変異よりむしろ、またはそれに加えて、局所的密度変異は随意に、局所的領域を通過するとともにスキャホールド配列を表す軸と平行な線または帯に沿って、局所的密度を平均密度と比較することにより検出される。すなわち、局所的密度は、共通または同等のリードペア分離を共有するがスキャホールド全体の他の位置に分布される、リードペアの密度と同等である。
代替的に、または組み合わせにおいて、密度値は、マップまたはデータセット全体の様々な位置に対して判定されるので、密度は、マップまたはデータセットの少なくとも1つの他の位置、例えば1、2、3、4、5、または5以下の位置の局所的密度と同等である。局所的密度は、マップまたはデータセットの少なくとも1つの他の位置の局所的密度に対して判定かつ評価されるので、局所的密度変異は、共通の密度を持つマップまたはデータセット上の位置に対応し、軸からの距離、またはその員の平均リードペア距離から独立し得る。
同様に、場合によっては、配列スキャホールドを表す軸などの軸からの距離に応じて減少する密度勾配などの密度勾配が判定される。その後、局所的密度は、勾配の密度と同等となり、局所的密度は、局所的密度区域から軸までの距離と同等である軸からの距離の分、密度勾配値とは大きく異なる場合に、「変異」として分類される。「大幅な」相違は、当該技術分野で既知の、または本開示に一致する、あらゆる統計手法や計算手法などの手法により評価され得る。
そのような判定後、場合によっては、局所的密度に起因するリードペアに対する「密度予測」位置が判定されることで、軸上のコンティグなどのスキャホールド成分の再配置はリードペアの位置決めをもたらし、局所的密度は、スキャホールドまたはスキャホールドコンティグの再配置後にリードペアの局所的密度に一致する、またはより密に近似する。
コンティグまたは他のスキャホールド成分の再配置を達成することで、上記で評価されるような局所的密度変異が減り、または、全体的に予測された密度勾配に対する密度変異の全体的な測定値が減少する。多様に再配置することには、コンティグなどのスキャホールド成分を互いに対して再び順序付けること、少なくとも1つのコンティグを第2のコンティグに対して再配向すること、コンティグを少なくとも2つの成分に分けること、区切り点境界に、区切りに隣接する配列などの配列を導入すること、および、スキャホールドのコンティグの他の場所に部分を導入することが挙げられる。
予測された密度変異は、いくつかの態様において、密度を予測するための様々なモデリング方法を使用して算出される。随意に、γ(混合物存在量)およびg(ギャップサイズ)に関するモデルが使用され、外形は密度の変化(または勾配)の予測速度を示す。このモデルにおいて、多くの場合、最も急激な密度変化(外形)の領域は、低い存在量/低いギャップサイズ(図8E、左)、および高い存在量/高いギャップサイズ(図8E、右)と共に見出される。追加のモデルは、本明細書に記載される方法とシステムから得られる経験的な獲得データに基づくものが挙げられ、密度の変化を予測し、随意に全体にわたり組み込まれる。
特定の状況下での局所的密度は、マッピングされたリードペアのプロット上の規定区域に「近い」または「離れている」と定められる。いくつかの例において、中心軸「付近」と定められる区域は、中心軸に正確に位置する平均予想密度の少なくとも0.5X、0.75X、1X、1.25X、1.5X、2X、または2.5X以内の予測されたリード密度を持つ区域に対応する。場合によっては、中心軸から「離れている」と定められる区域は、中心軸に位置する平均密度の0.1X、0.2X、0.3X、0.4X、0.5X、0.75X、または0.9X以下の予測されたリード密度を持つ区域に対応する。代替的に、軸の「付近」と定められた区域は、中心軸からの(塩基対における)リードペア分離距離の観点から説明される。随意に、中心軸からの少なくとも1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000、20,000、50,000、100,000、200,000、500,000、100万、200万、500万、1000万、または少なくとも2000万の塩基対のリードペア距離は、軸から「離れている」と定められる。場合によっては、中心軸からの約1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000、20,000、50,000、100,000、200,000、500,000の、100万、200万、500万、1000万、または約2000万の塩基対のリードペア距離は、軸から「離れている」と定められる。同様に、中心軸からの1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000、または20,000以下の塩基対のリードペア距離は、軸に「近い」と定められる。同様に、中心軸からの約1、2、5、10、20、50、100、200、500、1000、2000、5000、10,000、または約20,000の塩基対のリードペア距離は、軸に「近い」と定められる。代替的に、リードペア距離は各ビンにより表され、各ビンは、塩基対におけるリードペアの範囲を表す。
本明細書に記載される方法の様々な具体化において、2つの規定区域間のリード密度は、カーネルの境界または存在を確立するために比較される。場合によっては、この差異は、少なくとも10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%、または少なくとも5000%である。他の例において、この差異は、約10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%、または少なくとも5000%である。
本明細書に記載される方法の様々な具体化において、観察密度と予想密度との間のリード密度の差異は、モデルスキャホールドとマッピングされたリードペアデータとの誤差を識別するために比較される(「より高い」または「より低い」)。場合によっては、この差異は、少なくとも10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%、または少なくとも5000%である。他の例において、この差異は、約10%、20%、50%、80%、100%、200%、500%、800%、1000%、2000%、5000%、または少なくとも5000%である。
複合再編成の評価
リードペアのビンのアレイまたはマップの分析は、場合によっては、配列スキャホールドに対して特定の再編成と一致するビンの分布を示す。多くの場合、特定の再編成は、ビンのアレイまたはマップに複数の影響と兆候を及ぼし、染色体などの分子上の再編成またはスキャホールド配列などの予測された配列における複数の事象の程度と共起に左右される。
再編成を示すデータのアレイまたはマップにおける局所的密度変異の識別に際して、本明細書中のいくつかの方法とシステムを介して、二次的な局所的密度変異、または、再編成における複数の事象の程度または共起を示す局所的密度変異の詳細に関する統計が、挟持される。例えば、単純な転座事象は、特徴的な局所的密度分布をもたらし、この分布は、マップまたはビニングされたデータアレイの密度分解能よりも大きな長さの断片と共に生じた場合、対称的な局所的密度分布をもたらす。しかし、転座またはスキャホールドの再編成が、分子またはスキャホールドの全腕ではなく内部部分を対象とする場合、部分がマップまたはビニングされたデータアレイの密度分解能内にあれば、1つ以上の摂動を確認できる。事象を示す局所的密度分布は、軸にその最も近い点で局所的密度変異を二分する線に沿った左右対称性を欠く場合がある。代替的に、または組み合わせにおいて、第2の局所的密度分布が、第1の局所的密度変異にマッピングされた場合に先の局所的密度変異との対称性を回復するリードを予測する領域にマッピングされる1つのリードを有する、リードペアを含むと検出される。そのような密度分布は多くの場合、サンプル分子またはスキャホールドにおける複合再編成を示すので、2つの区切り点が、3つの別個の部分を、最初の、または予測されたスキャホールドに繋げる。
典型的な複合再編成の「第2度結合」状態は、図8Aに例示される。配列a-g(図8A、上部)は、フラグメント(a-gで標識)を形成すると示される部位にて分割され、生成物(図8A、下部)を形成するべく再編成される。フラグメントaとg両方のフラグメントdへの共通の結合は分析を複雑し、a-d-e/c-d-gおよびd-gの両方で再びアセンブルされたフラグメントと一致するシグナルを生成する。しかし、両方のシナリオは、場合によっては、図8Bに存在し、かつ図8Aには存在しないa-d-gの付加的な長距離シグナルa-g(a-d-e/c-d-g)を識別することで区別される。いくつかの例において、方法はさらに、これらの長距離シグナルの観察に起因する偽陽性融合要求の可能性を減らすために使用される(図8D)。偽陽性を減らす1つの方法において、すべての融合要求は、共有された区切り点により分類され、融合要求は、両区切り点をより高いスコアの要求と共有する場合に拒絶される。偽陽性を減らす別の方法において、モデルベースの判別方法を適用して、γ(混合物存在量)およびg(ギャップサイズ)に応じて尤度を調べ(図8E)、外形は密度の変化の予想速度を予測する。
局所的密度変異の幾可学的形状
局所的密度変異は多くの場合、軸の方を「指し示す」少なくとも1つの直角縁を持つようにマッピング出力において現れ、そのため、角度を局所的に二分する線は、局所的密度変異から軸までの最短距離を表す。
いくつかの局所的密度変異は正方形であり、軸に垂直に描かれ、かつ軸を指し示す直角縁を二分する線に沿った左右対称を示している。
代替的に、いくつかの局所的密度変異は上述のような左右対称を示すが、局所的密度変異の他の場所に対して軸の方を指し示す直角縁にて相当大きな局所的密度変異により、十分に規定されていない遠位縁または境界を有している。
代替的に、いくつかの局所的密度変異は正方形ではなく長方形であり、軸に対し垂直に描かれ、かつ軸の方を指し示す直角縁を二分する線に沿った左右対称性を欠いている。極端な場合、そのような局所的な濃度変異は、より低レベルの分解能にて線形であると考えられる。加えて、局所的密度変異は、上述のものとは別の構成を持つと観察される。
代替的に、いくつかの局所的密度変異は、「蝶ネクタイ」形状であり、中心点は、部分長さと、軸から離れた同じ距離との間のほぼ途中に規定される。中心点において直角に交差する4つの密度領域が場合によっては観察され、領域の境界線は45度で軸と交差し、軸上の部分の境界を通過する。1つの密度領域は随意に、軸により境界を付けられ、場合によっては、軸により境界を付けた領域に隣接する領域の密度は予想よりも高い。
局所的密度からの情報
本明細書に開示される方法およびシステムは、本明細書中の様々な手法において多数の目的に対して使用される局所的密度判定を可能にする。
スキャホールド配列を表す軸に最も近い直角縁に見られるものなど、局所的密度変異のピーク変異は、場合によっては、関連するゲノムの事象のコピー数の基準として有益である。すなわち、隣接した部分を示す局所的密度変異は、単独で、または他のマップまたはビンのアレイ情報と組み合わせて、そのピーク密度に関して分析される。この密度は、マップまたはデータセットのための軸から直ちに(immediately)離れたピーク密度と比較される。多様に使用されるメトリックは、軸上密度の平均、中央、形態、または他の基準を含む。
両者の整数比率を示す比較は、場合によっては、局所的密度変異に関連付けられる事象の倍数性を示す。すなわち、局所的軸密度の半分の密度は、2倍性サンプル中の1倍性の事象を示す。局所的軸密度の8分の1の密度は、8倍性サンプルの1つの染色体に生じる事象を示す。局所的軸密度の8分の5の密度は、8倍性サンプルの5つの染色体に生じる事象を示す。他の組み合わせも当業者に明白であり、例えば、4倍性ゲノム中の1/4、1/2、または3/4、8倍性ゲノム中の8つのうち1、2、3、4、5、6、7、または8、6倍性ゲノム中の6つのうち1、2、3、4、5、または6、または、サンプルのゲノム倍数性と一致する範囲内の整数比率を含む、またはそれに近似する他の割合が挙げられる。同様に、遺伝子採取の異質性は、いくつかの例において、局所的密度における整数変異を生じさせる。例えば、密度は、1倍性サンプルに対して予測密度の1/10で明白となり、ゲノムの1/10が事象を含むことが示される。これら事象は多くの場合、腫瘍、または他の多様な細胞の集団などの、異種混合の細胞集団において明示される。
代替的に、または組み合わせにおいて、局所的密度変異に対するピーク密度は、スキャホールド配列を表す軸に最も近い直角縁に見られるように、場合によっては、スキャホールド配列に関連するゲノムの事象の縁間の距離の基準として有益である。すなわち、物理的に結合した部分を示す局所的密度変異は、単独で、または他のマップまたはビンのアレイ情報と組み合わせて、そのピーク密度に関して分析される。この密度は、マップまたはデータセットの軸から直ちに離れた距離に及ぶ密度勾配と同等であり、軸からさらに遠くのバックグラウンド密度にまで減少する。多様に使用されるメトリックは、密度勾配上の点を判定するために軸上の密度の平均、中央、モード、または他の基準を含む。
局所的密度変異の密度は、比較可能な密度を有する勾配上に軸外距離を見出すように判定され、リードペアのビン密度勾配と比較される。その後、スキャホールド配列は、それらの密度が勾配の密度に一致するように、局所的密度変異のリードペアを位置決めするように再構成される。したがって、スキャホールド成分は、データアレイ、または勾配に対するマップにおける総合密度変異を減らすように再構成される。
完全なスキャホールド上にマッピングされたリードペアデータの理想的なセットでは、密度のほぼ全てが中心軸に等しく分配される。代替的に、密度の分布はデータのモデルを使用して予測されることで、軸から減少する予想密度または密度勾配が生成される。対角線軸上の予想密度に対する高密度または低密度の区域は、いくつかの例において、リードペアデータとスキャホールドモデルとの間の誤差を示す。例えば、軸上の予想密度よりも大きな区域は、いくつかの例において、スキャホールドモデルの崩壊したフラグメントを示す。別の例において、軸上の予想密度よりも小さな区域は、いくつかの例において、スキャホールドモデルの2つのフラグメント間の誤った結合を示す。一態様において、誤った結合は、2つの染色体を不正確に接続する。軸上の密度変異は、いくつかの態様において、観察されたリードペアデータとスキャホールドモデルとの間の、任意数の誤差を記載する。
密度の数理モデル
密度データ処理の一態様において、ゲノム位置のプロット(例えば、マッピングされたリードペアの中点位置により表される)は、リードペア分離に対してプロットされる。構造的変異(SV、誤差、特徴など)のないゲノムにおいて、大部分の点がベースライン付近に分配される(図3A)。しかし、逆位などの変異の存在は、図3Bと図3Cに表されるものなどのプロットをもたらす。点を欠くベースライン付近の区域は、逆位部分の縁を表す。構造的変異は、いくつかの例において、図3Dに示されるように特徴またはカーネルとしてモデル化され、部位aおよびbは事象の縁であり、明るい色の点は、aとbの中点(点線の交点)上に反映され、多くの場合特徴を識別するために使用される。随意に、尤度比率は、1)SVがゲノムに存在する仮定と2)ゲノムが基準に一致する仮定とを比較して算出される。場合によっては、仮定hは、線形動作として公式化され、ビン:CijとセットAijにおけるリードペア数のセットとして対象の領域中のデータを各ビンの区域に表現すること、i,jのビンに対するリードペア(S ij)あたりの対数尤度比率(LLR)貢献を算出すること、およびi,jのビン(T ij)の単位区域あたりの対数尤度貢献を算出することを含む。1つの典型的な式において、LLRスコアは次のように表現される:
Figure 0007297774000001
いくつかの例において、複数のSVに対する尤度比率を算出することが有益である。例えば、ペア(S ij、T ij)は、ゲノム中のすべてのオフセットkにおいてSVを検索するために使用される。
Figure 0007297774000002
このプロセスは随意に、ゲノム中のすべてのSVに対する尤度比率を算出するために反復される。
別の例において、図4Aにおける変異の各々が分析される。ほんの一例として、逆位、欠失、縦列重複、および逆位重複を含む各変異には、ゲノム中で明白な分離d、および起こり得る真の分離dでマッピングされるリードペアがある。場合によっては、dは、図4B-4Gに表される変異における4つの領域(0、1、2、3)の各々に対して判定される。
リードペア分離の変化は多くの場合、例えば次の式により表されるChicago尤度モデルを用いてカーネル要素へと変更される:
Figure 0007297774000003
式中、nはN回試みのうちの「まれな」結果へのヒットを表し、pはまれな結果の全体的な可能性であり:
Figure 0007297774000004
mは、重複の場合に、多様な代替的なシナリオである。
Figure 0007297774000005
またはヘテロ結合の場合に対して随意に:
Figure 0007297774000006
時折、ビンは、特徴またはカーネルに対する領域境界に重なる。1つの潜在的な解法は、S i,jに対してmax()、およびT i,jに対してmin()を使用して、各重複領域の区域と質量中心を算出することを含む。当業者により認識されるように、代替的な特徴分析の式とアルゴリズムも、本明細書中の方法とシステムと共に使用される。
画像処理技術などの追加の分析技術は、異なる再編成などの遺伝学的特徴のシグネチャを識別するために多様に使用される。例えば、カーネルコンボリューションのフィルタ処理を使用して、ペアリードの二次元プロットを分析することにより、融合されるゲノム遺伝子座のペアに対応する画像中の点を見つけることができる。図6Aと図6Bは、相互転座を見つけるために使用可能な典型的で単純なカーネルを示す。様々な事例において、局所的zスコアは、カーネルのフォアグラウンド領域とバックグラウンド領域との比率として規定されるzスコアのコントラスト値を計算することでカーネルに対して算出され、これは各ピクセルに対して反復される(図6C)。z-スコアリングから識別された特徴(円で囲んだ部分)を持つ典型的な画像を、図6Dに示す。いくつかの例において、ETV6とNTRK3との相互転座が識別される(図7)。右上部分と左下部分にある「蝶ネクタイ」形状の特徴は、相互転座のゲノム特徴のこれら2つの領域間の相互作用を示す。いくつかの態様において、染色体間の再編成は、局所的なzスコア検出の方法により識別される。このプロセスは随意に、画像中のすべてのピクセルに対して反復される。場合により、閾値を越えるすべての局所的最大値は、特徴の候補ヒットと考慮される。
スキャホールドのモデリング
核酸フラグメント(コンティグ、クラスターなど)の関連性は、いくつかの例において、数学的グラフモデルにより表され、各配列はノードであり、および、アセンブリ中の任意の2つのフラグメント間の界面は、2つ以上のノードを接続する縁として表される。縁を介して(および各ノードを一度だけ通過させる)を介して全てのノードを接続する経路は、場合によっては、配列決定フラグメントのアセンブリの解法を表す。多くの場合、配列決定データフラグメント中の固有の重複領域の欠如は、アセンブリに対して複数の解法(または経路)をもたらす。例えば、フラグメントA、B、およびCの理想化された1倍性の系列において、線形様式で3つすべてのフラグメントを接続するための6つの異なる選択肢(または経路)が想定される。しかし、ノードA/BとB/Cとの間の縁が、編成A-B-Cに対応するスキャホールドモデルを持つ中心軸上またはその付近にあるマッピングされたリードペア密度のグラフ上にカーネルとして明示される場合、モデルは正確に単一経路A-B-Cに一致する。特定の場合、縁(例えば、縁A/B)に対応する領域は、特徴に対応する密度には存在せず、編成は、スキャホールドモデルに情報を伝える「遮断縁」を含み、起こり得る経路の数を減らす。遮断縁は、場合によっては、経路がグラフモデルの2つのノード間に規定されるのを妨げ、これら2つのフラグメントが隣接していないアセンブリに情報を伝える。随意に、各縁は、解法経路の一部としてその縁を利用する尤度を規定する、加重因子を与えられる。加重因子は、場合によっては、2つのノードが接続される尤度を表す。A-B-Cのスキャホールドモデルに関して、いくつかの例において、予想よりも低い密度が対角線上に観察され、ここではA-Bの特徴が予想され、縁A-Bの加重因子を減らす。実用的な意味合いでは、これにより、いくつかの例において、配列のグラフモデルに対してノードを通る経路の数の単純化が可能になる。別の例において、縁A-Cに対応する特徴は、軸上のフラグメントAの位置を二分する水平線と、軸上のフラグメントCの位置を二分する垂線との交点に観察される。A-B-Cのスキャホールドモデルに関して、このことは、場合によっては、ノード(またはフラグメント)BがフラグメントAとCとの間のスキャホールドモデルにおいて不正確に配置されたことを示し、これらは隣接していなければならない。
より複雑な転座事象は多くの場合、遮断縁の追加により補助される。例えば、図8Aは、2つの異なる再変性/経路(左と右)を表し、それぞれ縁接続フラグメントがa/dとd/gを有している。このアセンブリ状態、およびその他多くは多くの場合、グラフ理論モデルの適用により処理される。マッピングされたリード密度の不足に対応するa/g(上部同心円、図8B)の間に遮断縁を加えることによって、a-d-eおよびc-d-gを接続する単一経路のみが、最も起こり得る。代替的に、同心円により表される2つの領域中の密度の不足をもたらすa/eおよびc/g(2セットの同心円、図8C)の間に遮断縁を加えることにより、a-d-gを接続する単一経路のみが、最も起こり得る。随意に、より複雑な転座事象も、この一般的な戦略を使用して分析される。
モデルの評価
多くのフラグメント(ノード)から成るスキャホールド、染色体、またはゲノム全体は、いくつかの態様において、この方法を使用して説明可能であり、これに関して、ノードを通る経路により表される多くのアセンブリ解法が評価される。多くの場合、変異体は、内部染色体変異体として存在し、データ分析の様々な方法、例えば複数のポテンシャル式により定められるモデリングなどを用いて、対処される。データ分析の1つの典型的な方法において、ゲノムモデル「スキャホールド」は、Hi-Cデータセットなどの配列決定データセットから構築される。随意に、データは腫瘍から獲得され、ゲノムの混合物、または対立遺伝子に対してヘテロ結合性で他のサンプルも含む。いくつかの態様において、高度の遺伝子異質性を含むゲノムのセット(腫瘍など)は、ゲノムモデルの加重されたセットとしてモデル化され、次の式により定められる:
Figure 0007297774000007
式中、各ゲノム(G、Gなど)は、染色体のセットの加重されたモデル(加重因子α)モデルとして定められる。場合によっては、各染色体(C)は、ゲノム上のビンの線形グラフとして定められる:
Figure 0007297774000008
いくつかの実施形態において、1対のゲノムビン(i、j)のペアを接続するためにマッピングされるリードペアの数は、ポアソン分布として定められる:
Figure 0007297774000009
λおよびλのリードそれぞれを予測する2つのモデルの対数尤度比率に関する典型的な式は、次のとおりである:
Figure 0007297774000010
いくつかの態様において、モデルは、ゲノムからのライブラリーによるリードペアモデルがビンi,jに属する確率を提供する。等方性のモデル(トランス活性化ドメイン(TAD)なし)に関して、確率は随意に、次のように表現される:
Figure 0007297774000011
式中、d i,jは、ゲノムgにおけるビンiとjとの間の最短経路の距離であり、p(d)は経験的なリード経路分離分布である。代替的に、または組み合わせにおいて、リードペアの確率は、ビンiおよびjに対するコピー数とマッピング可能性の観点により入り組んでいる。場合によっては、位置に特異的なTADを含む非等方性モデルが使用される:
Figure 0007297774000012
またはより一般的な形態が使用される:
Figure 0007297774000013
モデルの修飾と改善は多くの場合、データの質と精度を高める。多くの場合、新たな構成要素をモデルに加えて、データを説明するモデルの能力を増大させる。例えば、モデルMkの配列は、基準スキャホールド、または比較ゲノムスキャホールドから生成された初期のモデルを改善するために生成される。多くの場合、Mk+1は、1つの新たなゲノムgk+1をMに加え、1<i<kに対する重量γと重量αiはそれぞれ、(1-γ)αiへと更新される。Mk+1に対する所定の複数の候補、場合によっては、スコアΔS中の最大の増加へと通じる候補が、選択される:
Figure 0007297774000014
例えば、いくつかの例において、最良のモデルは、ΔSを最大限にするγの選択により見出される。代替的に、または組み合わせにおいて、重量αはすべて、増加したΔSを得るよう調整される。
いくつかの態様において、すべての(i,j)に対して合計されたときに大きな値のΔSをもたらす、新たな混合構成要素の候補が獲得される。しかし、多くの場合、これら潜在的なモデル構成要素のΔSへの貢献は、融合結合付近のij面に集中する。いくつかの例において、局所画像のフィルタ処理は、候補の編集を識別する。そのよう局所検索が、ビンrとsとの間の高スコアの(ゆえに、現行のモデルにより説明されない)接触を識別すると、この接触は随意に、新たな「ゲノム」に、または、混合物に既に存在するゲノムの1つに対する編集として追加される。特徴検出方法は、場合によっては、見出される特徴を説明するために、モデルの候補への修飾を提案する。例えば、特徴検出方法の基本的なセットは、次の1つ以上を含む:「相互転座+」、「相互転座-」、「転座++」、「転座+-」、「転座-+」、「転座--」、または「区切り」の方法。特徴検出方法は多くの場合、例えば次の特徴を出力する:ビンiの後の区切り、ビンjの前の区切り、またはビンiのビンjへの結合。いくつかの例において、方法は、特徴とモデルのリストをとり、スコアリングの代替的なモデルを生成する。例えば、モデルが既にn個の代替的なゲノムから成る場合、方法は随意に、これらnの各々に特徴の編集を適用し、それぞれの新たなコピーを作り出すことで編集を合計2nの代替的なモデルに適用する。他のスコアリングモデルも、この方法の実施中に利用される。
別の特徴識別技術において、モデリングは、内部染色体再編成を識別するために使用される。例えば、再編成が生じる尤度は多くの場合、対数尤度比率(LLR)が2つの仮定間の比率であると推定することにより判定される:
Figure 0007297774000015
式中、
Figure 0007297774000016
は、仮定iの下での2D接触面の領域におけるリードの予想数であり、P は、リードペアjに対する仮定iにより分離が示唆されているリードペアをサンプリングする可能性であり、挿入サイズ分布モデルが与えられる。いくつかの例において、仮定は、バックグラウンド、および頻度λにおいて混合されたバックグラウンドと信号である。いくつかの態様において、仮定は、a)変異が分析中のゲノムの区域に存在する、およびb)ゲノムが基準に一致するというものである。例えば、2つの仮定に対するLLRスコアSを算出するために、(1)リードは、画分が基準に対して遺伝子座iとjとの融合を含むゲノムの混合物から生成され、(0)そのような接触はi、j付近には存在しない。
Figure 0007297774000017
ギャップdにより分離されるゲノム上で2つの小さなビンに関するn個のリードにより寄与されるスコアは、再編成された遺伝子型(2D接触面の小さな領域)においてリードがdにより分離されるように、試験される接触(i、j)に対して位置決めされ、多くの場合、以下のように表現される(小さなビンの近似を作り出す):
Figure 0007297774000018
スコアSは、各方向i、jでのw個のビン内の貢献dSの面にわたる合計である。
Figure 0007297774000019
場合により、スコア「S」は、γに関して変異体存在量を推定する。γ→1である限界において、これは分離可能となり、カーネルコンボリューションによる計算に従う:
Figure 0007297774000020
式中、Mは、観察されたリード数のマトリクスであり、KS1は、要素ln P(dk,l)を伴う特徴検出カーネルであり、Kは、1に等しいとともにカーネルのフットプリントを覆う要素を伴う自明のカーネルであり(対角線距離の外形に等しい)、Qは、MおよびP(d)の要素毎の積に等しい要素を伴うゼロの仮定リード尤度貢献であり、N は、カーネルの範囲における再編成された遺伝子型から予想されたリードの数を表す定数であり、Nは、リードの数が仮定0の下で予想されることを示す要素を伴うマトリクス(対角線の外形)である。最初の1→γの順では、以下のとおりである。
Figure 0007297774000021
場合によっては、これ(例えば、γ<1)を以下のように近似させることが合理的であり、
Figure 0007297774000022
なぜなら、この項
Figure 0007297774000023
は多くの場合小さく、P(dk,l)>>P(di+k,j+l)である。
いくつかの態様において、尤度関数はコンティグの順序と配向を決定する。場合によっては、尤度関数は、k+1ビンへと型変換されたN個のボールの特定の構成を観察する多項確率に由来し、0、1...kの番号を付けられ、xは、i番目のビンに入るボール(またはペアエンドリード)の数であり、Pは、ボールがビンiに入る確率である:
Figure 0007297774000024
一例において、ビン0は、残る「まれな」ビンよりもはるかに高い確率を持つ。n≪N個のボールが「まれな」ビンのmに入り、残るN-nのボールがビン0に行き着く場合、確率は多くの場合、以下のように記載される:
Figure 0007297774000025
式中、jは、ボールを受ける稀なビンにインデックスを付ける。一般原理の損失なしに、いくつかの例において、ビンは、その第1のmがボールによりヒットを得るものであるように、1…kで再び番号を付けられる。P xi(i>mおよびx=0であるビンに関する)の残りの因子はすべて、1に等しい。随意に、稀なビンが非常に希少であるため1より多くのボールによりヒットがなされないという仮定が適用され、m=nであり、式を以下に減じる:
Figure 0007297774000026
上での標準化条件、およびすべての稀なビンを組み合わせた確率としての利便性に対しpを規定することにより、以下になる:
Figure 0007297774000027
ポアソン限界定理から、Nが非常に大きく、かつpが非常に小さい場合、以下である:
Figure 0007297774000028
式中、λ=Npである。いくつかの態様において、これにより、確率の表現における組み合わせの因子が単純化される。いくつかの例において、置換n=kが行われ、近似が以下のように再び書かれる:
Figure 0007297774000029
対数確率は、場合により以下の方法で表現される:
Figure 0007297774000030
場合によっては、Pは、
Figure 0007297774000031
へと標準化される。多くの場合、nを統制する二項分布にポアソンの近似が使用され、これは多くの場合、Nが大きく、かつ
Figure 0007297774000032
である限り有効であり、最大1つのボールが所定のまれなビンにあると仮定される。いくつかの例において、対数尤度比率は以下のように表現される:
Figure 0007297774000033
スキャホールドモデルの最適化は、場合によってはスコアSの低下をもたらし、十分にデータを説明するモデルを示している。この最適化プロセスは随意に、モデルと、マッピングされたリードペアデータとの間の全ての誤差が取り除かれるまで繰り返される。図17Aでは、スキャホールドモデルを改善するための例示的なワークフローが確認でき、生の結合密度データを得る工程、接触電位スコアを精製する工程、側面グラフ編集を行う工程、距離場を精製する工程、および現行の側面グラフに対する接触電位をアップデートする工程が含まれる。場合によっては、このプロセスは、ゲノムの対話式にアップデートされたグラフベースのモデルをもたらす。いくつかの例において、このプロセスは、特徴の識別のためにマッピングされたリードペアデータの品質を改善するために繰り返される。接触電位スコアは、いくつかの例において、プロット中のあらゆる電位特徴(または誤差)に生成される。側面グラフ編集は、場合によっては、アセンブリのグラフモデル中の縁に与えられる重量を変更することを指し、このことは、最も起こり得るアセンブリ解法に影響を及ぼす。いくつかの態様において、これら側面グラフ編集は、スキャホールド中のフラグメントを再び順序付けすること、フラグメントを取り除くこと、フラグメントを重複させること、または、スキャホールドモデルとリードペアデータとのより良い一致を作成するためにフラグメントを壊すことに相当する。いったん編集が行われると、グラフモデルを通る最短経路が多くの場合識別され、リードペアデータは新たなスキャホールドモデル上へとマッピングされる。別の工程において、スキャホールドモデルとリードペアデータとの間の起こり得るすべての誤差が再評価され、新たなスコアが生成される。随意に、これらの工程を反復することで、全体的なスコアが最小化され、より正確なスキャホールドアセンブリが示される。全体的な効果は、場合によっては、例えばモデルの最適化前に得られる図17Bと、その後に得られる図17Cとの間の差異において、視覚的に観察される。
ゲノムのモデル化、および確率の表現のための他の式と方法も、本明細書に記載される方法とシステムと共に使用される。
コピー数推定
コピー数変異の計算は多くの場合、例えば癌に関連する突然変異を持つ遺伝子コピーの数の評価において、疾患状態を評価するのに有益である。突然変異に対するコピー数の推定は、広範囲の手法、例えば、マップの他の場または位置、または密度勾配場に対する、局所的密度変異の密度評価に関連する手法などを使用して、判定される。場合によっては、コピー数変異は次の式を使用して算出される:
Figure 0007297774000034
式中、Nはビンiにおけるマッピングリードの数であり、Nはマッピングされたリードの総数であり、wはビンの幅であり、Gはゲノムサイズであり、cはビンiのコピー数であり、mはビンiのマッピング可能性である。マッピング可能性は、いくつかの態様において、ゲノムのセクションを再びアセンブルする能力を指し、これは場合によっては、高度反復配列により阻止される。場合によっては、Nとmが共に小さい場合、cは1に向かって偏る。いくつかの例において、染色体はビンへと分割され、マッピングされたリードペアは、ペアの中点に基づいてビンへと選別される。いくつかの例において、ゲノムのビンiとjに結合するリードペアの数は、次の式に従う:
Figure 0007297774000035
2Dヒストグラムは、場合によっては、異なるサンプルのコピー数データを視覚表示するために生成される(図2A-2C)。別の態様において、2Dヒストグラムを標準化して、コピー数の差異から長距離接触の信号を単離する:
Figure 0007297774000036
2つ以上のサンプルは多くの場合、マッピング可能性の効果を視覚化するために比較される。例えば、サンプルCT407(図2A、左)とCT410(図2A、右)は、図2Dの各軸に対して互いにプロットされる。対角線の外側にある点は、いくつかの態様において、比較される2つのサンプル間のコピー数の差異を表す。代替的に、または組み合わせにおいて、上記工程は、視覚化の補助なしに実行され、代わりに、非一時的コンピューター媒体に記憶される。当業者は、代替的な式がコピー数の差異の評価にも使用されることを認識する。
配列決定
配列リードデータなどの入力は、適切なファイル形式で形式設定可能である。例えば、配列リードデータは、FASTAファイル、FASTQファイル、BAMファイル、SAMファイル、または他のファイル形式で含まれ得る。入力配列リードデータはアライメントされない場合がある。入力配列リードデータはアライメント可能である。
配列リードデータは、分析のために調製可能である。例えば、リードは、品質のためにトリミング可能である。必要ならば、リードは配列決定アダプターを取り除くためにもトリミング可能である。
配列リードデータはアライメント可能である。例えば、リードペアは、特定の基準ゲノムへとアライメント可能である。場合によっては、基準ゲノムはGRCh38である。アライメントは、様々なアルゴリズムまたはツール、例えば限定されないが、SNAP、Burrows-Wheelerアライナー(例えばbwa-sw、bwa-mem、bwa-aln)、Bowtie2、Novoalign、およびそれらの修正版または変形版などを用いて実行可能である。
分析の品質管理(QC)報告も作成可能である。QC報告を使用して、失敗したライブラリーを識別した後、より深い配列決定を実施できる。そのような品質管理報告は、様々な測定基準を含み得る。QC測定基準には、限定されないが、リードペアの合計、重複(例えばPCR重複)のパーセント、マッピングされていないリードのパーセント、マップ品質が低い(例えば、Q<20)リードのパーセント、異なる染色体にマッピングされたリードペアのパーセント、0~1kbpのリードペア挿入(マッピング位置間の距離など)のパーセント、1kbp~100kbpのリードペア挿入のパーセント、100kbp~1Mbpのリードペア挿入のパーセント、1Mbpより上のリードペア挿入のパーセント、ライゲーション結合を含むリードペアのパーセント、制限フラグメント端部への近接、リードペア分離プロット、およびライブラリー複雑性の評価が挙げられる。QC測定基準を使用して、分析を最適化し、かつ、試薬、サンプル、およびユーザーにおける品質の問題を識別できる。配列アラインメントは、QC測定基準の1つ以上に基づいてフィルタ処理可能である。重複したリードも、例えば密に対応する位置でのリードの比較に基づいてフィルタ処理可能である。
配列リード分析の結果は、結合密度の結果を含み得る。結合密度の結果は、結合密度の結果の全ゲノム、1つの遺伝子座、および2つの遺伝子座の視点を含み得る。結合密度の結果は、データセットとして出力可能である。結合密度の結果は、染色体またはゲノムの領域間の相互作用(例えば接触)のヒートマップなどの結合密度プロット(LDP)として提示可能である。結合密度の結果は、品質スコアなどのスコアに関連付け可能である。場合によっては、結合密度の視覚化は、スコア閾値を越える結果に対して出力される。一例では、視覚化は、全ゲノムに対し、スコア閾値を越えるデノボ要求に対し、スコア閾値を越える片側の候補要求に対し、および、陰性と分類されるものを含む両側候補すべてに対して、含まれる。結合密度の視覚化は、スケール(例えばカラースケール)、長さスケールバー、遺伝子ネームラベル、遺伝子に対するエクソン/イントロン構造グリフ、および検出された再編成の強調を含み得る。
結合情報を標準化して、効果とバイアス、例えばカバレッジ、フラグメントのマッピング可能性、フラグメントのGC含量、およびフラグメントの長さなどを制御できる。標準化は、マトリクスの平衡化、または他の要因作動方法により実施可能である。マトリクス平衡化は、Sinkhorn-KnoppアルゴリズムまたはKnight-Ruiz標準化などのアルゴリズムを利用できる。標準化を実行することで、偽陽性を引き起こしかねないバックグラウンドシグナルの較正もできる。例えば、図10A、図10B、および図10Cは、3つの異なるサンプル中で比較された同じペアの染色体における、画像分析に基づく結果を示す。様々な「ヒット」(図中の円で囲んだ部分)が、複数のサンプル全体の同じ位置に見出され、これらが偽陽性であるという疑いを生じさせる。サンプルのプール(例えば10のサンプル)にわたる中央の標準化リード密度などによる標準化を使用して、例えば中央ピクセルでサンプルピクセルを分割することによって個別のサンプルデータを較正できる。図11A、図11B、および図11Cは、染色体1対染色体7(図11A)、染色体2対染色体5(図11B)、および染色体1対染色体1(図11C)に関する中央の標準化リード密度(10を超えるサンプル)を示す。標準化は、図12Aに示されるように同等のビンサイズを含むビン取り扱い手法により、および図12Bに示されるようにビンの補間により、実行できる。場合によっては、ビンの補間は、同等のビンサイズに比べてバックグラウンドノイズを減少させ、結果的により急激に解かれた特徴をもたらす。
アライメントされた配列データは、再編成、例えば全ゲノムを介した再編成、および特定の2つの遺伝子座(または両側)候補遺伝子での再編成に対して分析可能である。分析は、接触、融合、および結合の識別も含み得る。配列リードデータのアライメント(例えば、BAMファイルなどの適切なフォーマットにおける)は、分析へと入力可能である。ゲノム遮蔽情報は同様に入力可能であり、または、デフォルトのゲノム遮蔽情報を分析に使用可能である。分析は全ゲノムにわたり実行できる。付加的、または代替的に、分析は、両側候補融合のリストに対して実行できる。場合によっては、候補融合のリストに対し行われた分析は、全ゲノムに行われた分析よりも感度が高い。両側の候補融合の分析は、全ゲノムスキャンにより欠損しかねないDNAの比較的短い部分の転座を必要とする、融合を検出できる。
距離の測定は、場合によっては塩基と塩基対の組み合わせとして行われる。検出可能な再編成に対する区切り点間の最小距離は、核酸長さのリストから選択される2つの数により規定される範囲内にある数、その数未満、またはほぼその数であり、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、10Mb、20Mb、30Mb、40Mb、50Mb、60Mb、70Mb、80Mb、90Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、または1Gbが挙げられる。
再編成分析により、被験体ゲノムにおいて結合されたとみなされる区切り点のペアのリストを得ることができる。区切り点座標のペアのリストは、区切り点座標ペアに関する統計的有意差または信頼測定基準(例えばp値)を含み得る。これら区切り点のペアは、ブラウザ拡張可能データ(BED)またはBED-PEなどの適切なフォーマットで出力可能である。
染色体立体配座の分析も、本明細書に開示される技術を使用して実行できる。例えば、位相幾何学的に関連するドメイン(TAD)とTAD境界を判定できる。他の位相幾何学的ドメインと境界も判定でき、限定されないが、ラミナ関連ドメイン(LAD)、複製時間帯、および大規模な組織化クロマチンK9修飾(LOCK)ドメインが挙げられる。
図13は、全ゲノムスキャンの分析パイプラインによる分析を示す。分析パイプラインにより行われたサンプル要求は、白い円で囲まれて示される。図13は、250kのビンを伴う、染色体3対染色体6のプロットを示す。
典型的な実施形態において、配列決定データを使用して、出発FFPEサンプル中にあると知られる多形性に関するフェージング情報が判定される。例えば、配列決定データを使用して、SNPなど特定の多形性が、同じまたは異なるDNA分子に存在したかどうかが判定される。この方法を使用して判定されるフェージングの精度は、GIABサンプルの配列など既知の配列との比較により測定される。例えば、場合によっては、0-10,000の間で、132,796のSNPSが見出され、99.059%が正確なフェーズにあることが分かっている。高い一致(>95%)は、約1.5MBまで見られる(13のうち1つが欠損する70-80kbのビン、および、15のうち2つが欠損する1.1-1.3MBのビンを例外とする)。1.7-1.9MBの範囲では、7つのSNPペアフェーズのうち7つが適切に要求された。これらのデータから、低レベルの偽性結合にもかかわらず、厳密な長距離の情報が、FFPE-Chicago方法を使用して最大メガベースの範囲にまで判定されると、結論付けられる。重要なことに、これら「一致」予測率は、多くの場合95%以上であり、50%の成功率より著しく高い(ランダム偶然から予測)。
構造上のフェージング情報
現在、構造とフェージングの分析(例えば医療目的のため)は、困難なままである。例えば、癌、同じタイプの癌を抱える個体、または同じ腫瘍の中にも、驚異的な異質性が存在する。必然の効果から原因となるものを引き出すことには、サンプルごとに低コストで非常に高い精度かつスループットが必要となる。個別化医療の分野では、ゲノムケアのゴールドスタンダードの1つは、大小の構造的な再編成と新規な突然変異を含む、すべての変異が完全に特徴付けられ、かつフェージングされた、配列決定されたゲノムである。従来技術でこれを実現するには、デノボアセンブリに必要な労力と同種の労力が要求され、このアセンブリは現在、非常に高価で多大な時間と労力を要するので、慣例的な医療処置では必要とされない。
フェージング情報は、母/父のフェージングのほか、腫瘍/非腫瘍のフェージング情報も含む。腫瘍/非腫瘍のフェージングを使用して、癌ゲノム情報を体性ゲノム情報から分化できる。
本開示のいくつかの実施形態において、被験体からの保存組織(例えば、FFPE組織)が提供される場合があり、前記方法は、アセンブルされたゲノム、要求された変異(大きな構造変異およびコピー数変異を含む)を伴うアライメント、フェージングされた変異要求、または任意の追加の分析を戻すことができる。他の実施形態において、本明細書に開示される方法は、個体に長距離リードペアライブラリーを直接提供できる。
本開示の様々な実施形態において、本明細書に開示される方法は、長距離も離れている長距離リードペアを生成できる。この距離の上限は、大きなサイズのDNAサンプルを採取する能力によって改善され得る。場合によっては、リードペアは、ゲノム距離で最大50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp、またはそれ以上に及ぶ場合がある。いくつかの例において、リードペアは、ゲノム距離で最大500kbpに及ぶ場合がある。他の例において、リードペアは、ゲノム距離で最大2000kbpに及ぶ場合がある。本明細書に開示される方法は、分子生物学の標準技術を統合して積み上げることができ、さらに、効率、特異性、およびゲノムカバレッジを増大させるのに適切である。
他の実施形態において、本明細書に開示される方法は、現在利用されている配列決定技術と共に使用可能である。例えば、該方法は、十分に試験され、および/または広く展開されている配列決定機器と組み合わせて使用可能である。さらなる実施形態において、本明細書に開示される方法は、現在使用されている配列決定技術に由来する技術と手法と共に使用可能である。
様々な実施形態において、本開示は、保存(例えばFFPE)サンプルまたは細胞内の染色体の物理的な配置を探索する工程を含む、本明細書に開示される1つ以上の方法を提供する。配列決定によって染色体の物理的な配置を探索する技術の例としては、染色体立体構造捕捉(「3C」)、環状化染色体立体構造捕捉(「4C」)、カーボンコピー染色体捕捉(「5C」)、およびHi-Cに基づく方法などの技術の「C」ファミリー;および、ChIP-ループ、ChIP-PETなどのChIPに基づく方法が挙げられる。これらの技術は、核の中の空間的関係を固めるために生細胞のクロマチンの固着を利用する。生成物のその後の処理と配列決定により、研究者はゲノム領域中の近似結合のマトリクスを回復できる。詳しい分析により、これらの関連性を使用して、染色体が保存(例えばFFPE)サンプルに物理的に編成されるように染色体の3次元幾何学マップを作成できる。こうした技術は、染色体の別の空間的な組織化について記載しており、染色体の遺伝子座の中での機能的な相互作用を正確に把握する。
いくつかの実施形態において、染色体内の相互作用は染色体の接続性と相関する。場合によっては、染色体内のデータはゲノムアセンブリを補助できる。場合によっては、クロマチンはインビトロで再構築される。このことは有利な場合があり、なぜなら、クロマチン、特にクロマチンの主要なタンパク質成分であるヒストンは、配列決定:3C、4C、5C、およびHi-Cによってクロマチンの立体構造と構造を検知するための技術の最も一般的な「C」ファミリー下での固着に重要だからである。クロマチンは、配列の観点から高度に非特異的であり、一般にゲノム全体で均一にアセンブルする。場合によっては、クロマチンを使用しない種のゲノムは、再構築されたクロマチン上でアセンブルし、それにより、開示のために範囲を生命のすべての領域にまで拡大できる。
リードペアデータは、クロマチン立体配座の捕捉技術から入手可能である。いくつかの例において、ライゲーションまたは他のタグ付けは、物理的に近接した状態のゲノム領域をマーキングするように達成される。タンパク質(ヒストンなど)がクロマチン内でDNA分子(例えばゲノムDNA)との複合体において安定して結合されるような、複合体の架橋は、本明細書の他の場所でさらに詳細に記載されている、または当該技術分野で既知の適切な方法によって達成可能である。場合によっては、サンプル保存(例えば、固着から)から生じる架橋は、そのような複合体が、例えばプロテイナーゼKでの処置の除外を介して分解しないような条件下で、DNAタンパク質複合体を抽出することにより利用される。例えば、ゲノム配列に沿って近接していないヌクレオチド部分は、クロマチンなどの構造の部分に物理的に近接し得る。そのようなヌクレオチド部分はともにライゲートされ、その後、本開示の方法に従い分析され得る。例えば、ライゲートされたヌクレオチド部分が配列決定され、2つのライゲートされた部分の配列決定端部間の距離(挿入距離)が分析され得る。図14Aは、本開示の技術により分析される保存サンプル(例えばFFPEサンプル)に対する塩基対(bp)中の挿入距離に応じた、特定の範囲での挿入の確率のグラフを示す。図14Bは、Chicago法を使用して分析されたサンプルに対する同様のグラフを示す。両グラフにおいて、X軸は0~300,000の挿入距離(bp)を示し、一方でY軸は、軸(対数)の上部10から下部10-8までの距離の挿入の確率を示す。
場合によっては、2つ以上のヌクレオチド配列が、1つ以上のヌクレオチド配列に結合したタンパク質を介して架橋できる。1つの手法は、クロマチンを紫外線照射に晒すことである(Gilmour et al.,Proc. Nat’l. Acad. Sci. USA 81:4275-4279,1984)。ポリヌクレオチド部分の架橋も、化学的または物理的(例えば、光学)な架橋など、他の手法を利用して実行されてもよい。適切な化学架橋剤としては、限定されないが、ホルムアルデヒドとソラレンが挙げられる(Solomon et al.,Proc. Natl. Acad. Sci. USA 82:6470-6474,1985; Solomon et al.,Cell 53:937-947,1988)。例えば、架橋は、DNA分子とクロマチンタンパク質を含む混合物に2%のホルムアルデヒドを加えることにより実行可能である。DNAを架橋するために使用可能な薬剤の他の例としては、限定されないが、UV光、マイトマイシンC、ナイトロジェンマスタード、メルファラン、1,3-ブタジエンジエポキシド、シスジアミンジクロロ白金(II)、およびシクロホスファミドが挙げられる。適切なものとして、架橋剤は、約2Åなど比較的短い距離を埋める架橋を形成し、それにより、逆転可能な密接な相互作用を選択する。
普遍的に、Hi-C技術などの染色体の物理的な配置を探索するための手順は、培養細胞または一次組織から単離されたクロマチンなどの、細胞/生命体内に形成されるクロマチンを利用する。Chicagoベースの方法は、細胞/生物体から単離されたクロマチンだけでなく、再構成されたクロマチンも用いる、そのような技術の使用を提供する。再構成されたクロマチンは、様々な特徴にわたって細胞/生物体内に形成されたクロマチンと区別される。第1に、多くのサンプルについて、ネイキッドDNAサンプルの収集は、体液を採取すること、頬側または直腸の領域を拭き取ること、あるいは上皮サンプルを採取することなどにより、非侵襲的~侵襲的な様々な方法を用いて達成可能である。第2に、クロマチンの再構成は、ゲノムアセンブリとハプロタイプフェージング向けのアーチファクトを生成する、染色体間と他の長距離の相互作用を実質的に妨げる。場合によっては、サンプルは、本開示の方法と組成物に従い、約20、15、12、11、10、9、8、7、6、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1%、またはそれ以下の染色体間または分子間の架橋を有する場合がある。いくつかの例において、サンプルは約5%未満の染色体間または分子間の架橋を有する場合がある。いくつかの例において、サンプルは約3%未満の染色体間または分子間の架橋を有する場合がある。さらなる例において、サンプルは約1%未満の染色体間または分子間の架橋を有する場合がある。第3に、架橋可能な部位の頻度、およびしたがって、ポリヌクレオチド内での分子内架橋の頻度は、調節可能である。例えば、ヌクレオソーム密度を望ましい値に調節できるように、DNA対ヒストンの比率を変更できる。場合によっては、ヌクレオソーム密度は生理的なレベル以下に減らされる。したがって、架橋の分布は長距離の相互作用へ有利に働くように変更可能である。いくつかの実施形態において、様々な架橋密度を有するサブサンプルは、短距離と長距離の結合を網羅するように調製されてもよい。例えば、架橋条件は、架橋の少なくとも約1%、約2%、約3%、約4%、約5%、約6%、約7%、約8%、約9%、約10%、約11%、約12%、約13%、約14%、約15%、約16%、約17%、約18%、約19%、約20%、約25%、約30%、約40%、約45%、約50%、約60%、約70%、約80%、約90%、約95%、または約100%が、サンプルDNA分子上で少なくとも約50kb、約60kb、約70kb、約80kb、約90kb、約100kb、約110kb、約120kb、約130kb、約140kb、約150kb、約160kb、約180kb、約200kb、約250kb、約300kb、約350kb、約400kb、約450kb、または約500kb離れたDNA部分間で生じるように、調節可能である。
癌のゲノム配列決定に必要とされる高い精度は、本明細書に記載された方法とシステムを使用して達成可能である。癌ゲノムを配列決定する際、不正確な基準ゲノムではベース要求が困難になりかねない。異種のサンプルと小さな出発物質、例えば、生検によって得られたサンプルは、別の問題を引き起こす。さらに、大規模な構造変異体の検出および/またはヘテロ結合性の喪失は多くの場合、体細胞の変異体とベース要求のエラーとを区別する能力と同様に、癌のゲノム配列決定に必要不可欠である。
本明細書に記載されたシステムと方法は、2、3、4、5、6、7、8、9、10、12、15、20、またはそれ以上の様々なゲノムを含む複合体サンプルからの正確な長い配列を生成し得る。正常な、良性の、および/または腫瘍起原の混合サンプルは、随意に正常な対照を必要とすることなく分析され得る。いくつかの実施形態において、100ngほどの小さな、あるいは数百のゲノム当量と同じくらい小さな出発サンプルを用いて、正確な長い配列を生成する。本明細書に記載されるシステムと方法は、コピー数変異体、大規模構造変異体、および再編成の検出を可能にすることもあり、フェージングされた変異体要求は、約1kbp、約2kbp、約5kbp、約10kbp、20kbp、約50kbp、約100kbp、約200kbp、約500kbp、約1Mbp、約2Mbp、約5Mbp、約10Mbp、約20Mbp、約50Mbp、または約100Mbp以上のヌクレオチドに及ぶ長い配列にわたって得られる場合がある。例えば、フェージングされた変異体要求は、約1Mbpまたは約2Mbpに及ぶ長い配列にわたって得られる場合がある。
本明細書に記載される方法とシステムを使用して判定されたハプロタイプは、計算上のリソース、例えば、クラウドシステムなどのネットワークを介する計算上のリソースに割り当てられてもよい。短い変異体要求は、必要に応じて、計算上のリソースに保存される関連情報を使用して、修正可能である。構造変異体は、短い変異体コールからの組み合わせた情報と、計算上のリソースに保存された情報とに基づいて検知可能である。部分重複、構造的な変異の傾向のある領域、非常に可変かつ医学的に関連するMHC領域、セントロメアおよびテロメアの領域、および、限定されないが、反復領域、低い配列精度、高い変異体比率、ALU反復、部分重複、または当該技術分野で知られる他の関連する問題のある部分を有する領域を含む、他のヘテロクロマチン領域などの、ゲノムの問題部分は、精度を増加させるために再アセンブル可能である。
サンプルタイプは、局所的に、またはクラウドなどのネットワークにつながれた計算上のリソースにおいて配列情報を割り当てられ得る。情報のソースが知られている場合、例えば、情報のソースが癌または正常組織由来である場合、サンプルタイプの一部としてソースをサンプルに割り当てることができる。他のサンプルタイプの例としては一般に、限定されないが、組織タイプ、サンプル採取方法、感染症の存在、感染症の種類、処理方法、サンプルのサイズなどが挙げられる。癌ゲノムとの比較における正常なゲノムなどの完全または部分的な比較ゲノム配列が利用可能である場合、サンプルデータと比較ゲノム配列との差異を判定し、随意に出力することができる。
ハプロタイプフェージング方法
本明細書に開示される方法により生成されたリードペアが一般に、染色体間の接触に由来するので、ヘテロ型結合性の部位を含有すあらゆるリードペアはまた、それらのフェージングに関する情報を伝える。この情報を使用して、短い、中間、および長い(メガベース)距離にわたる信頼できるフェージングが、急速かつ正確に実行され得る。1000ゲノムのトリオ(母/父/子のゲノムのセット)の1つからのデータをフェージングするように設計された実験は、信頼して推測されたフェージングを有する。加えて、Selvaraj et al.(Nature Biotechnology 31:1111-1118 (2013))に類似する近接ライゲーションを使用するハプロタイプ再構成も、本明細書に開示されるハプロタイプフェージング方法と共に使用可能である。
例えば、近接ライゲーションベースの方法を使用するハプロタイプ再構成はまた、ゲノムをフェージングする際に本明細書に開示される方法に使用され得る。近接ライゲーションベースの方法を使用するハプロタイプ再構成は、ハプロタイプアセンブリのために近接ライゲーションおよびDNA配列決定を確率的アルゴリズムと組み合わせる。最初に、Hi-Cプロトコルなどの染色体捕捉プロトコルを使用して、近接ライゲーション配列決定が実行される。これらの方法は、三次元空間で一緒にループされる2つの離れたゲノム遺伝子座からDNA断片を捕捉できる。結果として生じるDNAライブラリーのショットガンDNA配列決定の後、ペアエンド配列決定リードは、数百から何千万もの範囲の塩基対の「挿入サイズ」を有する。ゆえに、Hi-C実験で生成された短いDNA断片は、小さなハプロタイプブロックをもたらすことができ、長い断片は、最終的にこれらの小さなブロックを一緒に連結できる。十分な配列決定カバレッジがあることで、この手法は、変異体を不連続のブロックに連結し、そのようなブロックすべてを単一のハプロタイプへとアセンブルする可能性がある。その後、このデータは、ハプロタイプアセンブリのために確率的アルゴリズムと組み合わせられる。確率的アルゴリズムは、ノードがヘテロ結合変異体に対応し、縁がヘテロ結合変異体に連結し得る重複配列断片に対応するグラフを利用する。このグラフは、配列決定エラーまたはトランス相互作用に起因する偽の縁を含み得る。その後、入力配列決定リードのセットによって提供されるハプロタイプ情報と最大限に一致している簡潔な解法を予測するために、最大切断アルゴリズムが使用される。近接ライゲーションが、従来のゲノム配列決定またはメイトペア配列より大きなグラフを生成するため、ハプロタイプが合理的な速度および高精度で予測され得るように、計算時間およびイテレーションの数が変更される。その後、結果として得られるデータを使用して、Beagleソフトウェアおよびゲノムプロジェクトの配列決定データを使用してローカルフェージングを誘導し、高解像度および精度で染色体にわたる(chromosome-spanning)ハプロタイプを生成できる。
ペアエンドを伴うフェーズ情報の判定
本明細書にはさらに、FFPEサンプル由来のペアエンドのフェーズ情報を判定するための方法と組成物が提供される。ペアエンドは、開示の方法、または提供される実施例に例示される方法のいずれかにより生成され得る。例えば、後に切断される固体表面に結合されるDNA分子の場合、遊離末端の再ライゲーション後、再ライゲートされたDNA部分は、例えば制限消化によって、固体フェーズが付いたDNA分子から放たれる。この放出の結果、複数のペアエンドの断片がもたらされる。場合によっては、ペアエンドは、増幅アダプターにライゲートされ、増幅され、かつショートリード技術により配列決定される。これらの事例において、複数の異なる固体フェーズが結合したDNA分子のペアエンドは、配列決定サンプル内にある。しかし、ペアエンド結合部のいずれの側についても、結合部に隣接する配列は、共通の分子の共通のフェーズに由来すると、確信的に結論付けられる。ペアエンドが終点オリゴヌクレオチド(punctuation oligonucleotide)と結合される場合、配列決定リードのペアエンド結合部は、終点オリゴヌクレオチド配列により識別される。他の場合、ペアエンドは、修飾ヌクレオチドにより結合され、これは修飾ヌクレオチドの配列に基づいて識別可能である。
代替的に、ペアエンドの放出後、遊離ペアエンドは、増幅アダプターにライゲートされ、増幅される。これらの場合、複数のペアエンドが共にバルクライゲートされ(bulk ligated)、ロングリード配列決定技術を用いて読み取られる長い分子を生成する。他の例において、放出されたペアエンドは、介入的な増幅工程なしに互いに対しバルクライゲートされる。いずれの場合も、埋め込まれたリードペアは、結合配列、例えば終点配列または修飾ヌクレオチドなどに隣接する天然DNA配列を介して識別可能である。連鎖状のペアエンドは、長い配列デバイス上で読み取られ、かつ、複数の結合部に関する配列情報が得られる。ペアエンドは複数の異なる固体フェーズが結合したDNA分子に由来するので、2つの個々のペアエンドに及ぶ配列、例えば増幅アダプター配列に隣接する配列は、複数の異なるDNA分子にマッピングされるのが分かる。しかし、ペアエンド結合部のいずれの側についても、結合部に隣接する配列は、共通の分子の共通のフェーズに由来すると、確信的に結論付けられる。例えば、終点を付けた分子に由来するペアエンドの場合、終点配列に隣接する配列は、共通のDNA分子へと確信的に割り当てられる。好ましい場合、個々のペアエンドは、本明細書に開示される方法と組成物を使用して連結されるので、単一のリードにおいて複数のペアエンドを配列決定できる。
本明細書に記載される方法と組成物を使用して生成された配列決定データを使用して、好ましい実施形態において、フェージングされたデノボ配列アセンブリを生成し、フェーズ情報を判定し、および/または構造変異を識別する。
構造変異および他の遺伝学的特徴の判定
図15Aと図15Bを参照すると、再びアセンブルされたクロマチンのDNAの近接ライゲーションから生成されたリードペアの基準配列上のマッピングされた位置、例えばGRCh38が、GM12878と基準との間の構造的な差異の付近でプロットされる例が、提供される。生成された各リードペアは、対角線より上および下に表される。対角線より上では、陰は、示されたスケールでのマップ品質スコアを示し;対角線より下では、陰は、フェージングされたSNPとの重なりに基づいて生成されたリードペアの推量されたハプロタイプフェーズを示す。いくつかの実施形態において、生成されたプロットは、図15Bに例示されるように、隣接する反復領域を伴う逆位を表す。いくつかの実施形態において、生成されたプロットは、図15Bに例示されるように、フェージングされたヘテロ結合欠失に関するデータを表す。
基準に対する1つの個体からのペア配列リードのマッピングは、逆位、欠失、および重複のような隣接する核酸またはゲノム構造における差異を識別するための、最も一般的に使用される配列ベースの方法である(Tuzun et al., 2005)。図15Aと図15Bは、ヒト基準ゲノムGRCh38にマッピングされたGM12878から再びアセンブルされたクロマチンのDNAの近接ライゲーションにより生成されたリードペアが、どのようにそのような2つの構造的な差異を明らかにするのかを示す。構造的な差異を識別するべくリードペアデータの感度と特異性を推定するために、ヘテロ結合逆位の効果をシミュレートするために構成されたシミュレーションデータセット上の最大尤度弁別子を検査した。検査データは、GRCh38基準配列に生成されたNA12878リードのマッピングから定めた長さLの間隔を無作為に選択し、かつ生成したリードペアそれぞれを独立して無作為に逆位または基準のパプロタイプに割り当てることにより、および、それに応じてマッピングされた座標を編集することにより、構築された。非対立性の相同組換えは、ヒトゲノムに観察された構造的変異の多くに起因し、結果として、反復した配列の長いブロックに生じる多くの変異区切り点が生じる(Kidd et al., 2008)。逆位区切り点を囲む反復配列の様々な長さの効果は、それらの距離W内にマッピングされたリードすべてを取り除くことによりシミュレートされた。逆位区切り点の反復配列がない場合、1Kbp、2Kbp、および5Kbpの逆位それぞれに対して、感度(特異性)はそれぞれ0.76(0.88)、0.89(0.89)、および0.97(0.94)であった。逆位区切り点での反復(マッピング不能)配列の1Kbpの領域がシミュレーションに使用されると、5Kbpの逆位に対する感度(特異性)は0.81(0.76)であった。
パフォーマンス
本明細書に開示される技術で実施される分析は、高精度で実行できる。分析は、少なくとも約50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、またはそれ以上の精度で実行できる。分析は、少なくとも70%の精度で実行できる。分析は、少なくとも80%の精度で実行できる。分析は、少なくとも90%の精度で実行できる。
本明細書に開示される技術で実施される分析は、高特異性で実行できる。分析は、少なくとも約50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、またはそれ以上の特異性で実行できる。分析は、少なくとも70%の特異性で実行できる。分析は、少なくとも80%の特異性で実行できる。分析は、少なくとも90%の特異性で実行できる。
本明細書に開示される技術で実施される分析は、高感度で実行できる。分析は、少なくとも約50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、またはそれ以上の感度で実行できる。分析は、少なくとも70%の感度で実行できる。分析は、少なくとも80%の感度で実行できる。分析は、少なくとも90%の感度で実行できる。
本開示の技術の使用は、それらが実施されるコンピューターシステムの機能を改善できる。例えば、前記技術は、所定の分析のための処理時間を、少なくとも約5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、またはそれ以上減らすことができる。前記技術は、所定の分析に必要なメモリーを、少なくとも約5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、またはそれ以上減らすことができる。
本開示の技術の使用は、以前は不能であった分析の実施を可能にする。例えば、特定の遺伝学的特徴は、本開示の方法を必要とすることなくそのような情報から検出できない、配列情報から検出できる。
機械学習
特徴、例えば接触と再編成(限定されないが、欠失、重複、挿入、逆位、または逆転、転座、結合、融合、および分裂を含む)、および他の相互作用を識別するための分析は、様々な技術により実施できる。分析技術は、統計的かつ確率的な分析、フーリエ分析、コンピュータービジョン、および他の画像処理を含む信号処理、言語処理(例えば自然言語処理)、および機械学習を含み得る。例えば、接触マトリクスなどの相互作用プロットは、上述のものなどの特徴を示すデータ構成について分析できる。場合によっては、フィルターは、プロットまたは他のデータに適用できる。フィルターは、平滑化フィルター(例えば、特にカーネル平滑化またはSavitzky-Golayフィルター、ガウシアンぼかし)を含むがこれらに限定されない、コンボリューションフィルターであり得る。
いくつかの実施形態は、ゲノム構造判定の構成要素として機械学習を必要とし、したがって、いくつかのコンピューターシステムは、機械学習性能を持つモジュールを含むように構成される。機械学習モジュールは、機械学習機能を構成するように以下に列挙したモダリティーのうち少なくとも1つを含む。
機械学習を構成するモダリティーは、自動化された質量スペクトルデータスポットの検出と要求を実行できるように、データをフィルタ処理する性能を多様に実証する。このモダリティーは、場合によっては、逆位、挿入、欠失、または転座などの様々なゲノムの構造変化を示す、予測されたパターンの存在により容易になる。
機械学習を構成するモダリティーは、リードペア頻度を、下流分析を促す形態にするように、データ処置またはデータ処理の性能を多様に実証する。データ処置の例には、対数変換、スケール比率の割り当て、または、データを、下流分析を促す形態にするように精巧な特徴へのデータのマッピングが挙げられるが、必ずしもこれらに限定されない。
本明細書に開示されるような機械学習データ分析構成要素は、リードペアのデータセット中の広範囲の特徴、例えば、1~10,000の特徴、2~300,000の特徴、またはこれらの範囲の何れか以上の数の特徴を規則的に処理する。場合によっては、データ分析は、少なくとも1k、2k、3k、4k、5k、6k、7k、8k、9k、10k、20k、30k、40k、50k、60k、70k、80k、90k、100k、120k、140k、160k、180k、200k、220k、2240k、260k、280k、300k、または300kより多くの特徴を必要とする。
リードペア分散パターンは、本開示と一致するあらゆる数の手法を使用して識別される。場合によっては、リードペア分散パターンの選択は、エラスティックネット(elastic net)、情報利得、ランダム・フォレスト・インピューティング、または、本開示に一致し、かつ当業者に精通する他の特徴選択手法を含む。
選択されたリードペア分散パターンは、本開示と一致するあらゆる数の手法を再び用いて、ゲノムの構造変化を示す予測されたパターンに対して整合される。場合によっては、リードペアパターンの検出は、ロジスティック回帰、SVM、ランダムフォレスト、KNN、または、本開示に一致し、かつ当業者に精通する他のクラシファイヤー手法を含む。
機械学習の適用、または、本明細書に開示される分析のために構成されるコンピューターへの機械学習モジュールの設置により、進行中のモニタリング手順の一部として無症状疾患の検出または早期検出に対するゲノム構造変化の検出を可能にして、症状の進行に先立ち、または介入が容易に達成されるか、成功的な結果をもたらす可能性が高い間に、疾患または障害を識別する。
機械学習の適用、または、本明細書に開示される分析のために構成されるコンピューターへの機械学習モジュールの設置により、例えば薬物試験一部として薬物処置を受ける個体の構造再編成の識別を可能にして、その結果、個体または集団に対する試験の結果は、正または負に薬物効果と対応する特定のゲノム構造事象を識別するように、同時に、または遡及的に相関され得る。
機械学習の適用、または、本明細書に開示される分析のために構成されるコンピューターへの機械学習モジュールの設置により、サンプル中の位置情報を保存するように均質化を用いずに採取された腫瘍組織サンプルなど、遺伝学的に異種混合のサンプルの特定領域に対応するする構造再編成の識別を可能にする。腫瘍領域の一部は、特に転移または腫瘍拡散が大きな(adept)細胞集団に相当すると知られるので、この細胞集団に相関するゲノム再編成または他のフェーズ情報の識別は、特に危険な3つの細胞集団を標的とする処置レジメンの選択を補助する。
モニタリングは多くの場合、発症または進行の兆候がモニタリングされる障害の遺伝的素因を示す遺伝学的評価と組み合わせて、またはそれを支持して実行されるが、必ずしもそうではない。同様に、場合によっては、機械学習を使用して処置レジメンの処置効果のモニタリングまたは評価が容易になり、その結果、処置レジメンは経時的に改変され、継続され、または、進行中のプロテオミクス媒介モニタリングにより示されるように解かれる場合がある。
機械学習手法、および、モジュールが機械学習アルゴリズムを実行するよう構成されているコンピューターシステムは、変動する複雑性のデータセットにおけるフェーズ情報またはゲノム再編成の識別を容易にする。場合によっては、フェーズ情報またはゲノム再編成は、大量の質量スペクトルデータ、例えば、複数の時点で1つの個体から得られるデータ、目的の状態に関する既知の状況、または既知の最終的な処置の結果または応答のある複数の個体などの個体から得たサンプル、または複数の時点と複数の個体から得たサンプルなどを含む、標的でないデータベースから識別される。
代替的に、場合によっては、機械学習は、例えば、個体の健康状態がその時点で分かっているときに複数の時点にわたり1つの個体からゲノム再編成またはフェーズ情報を採取すること、目的の状態に関する既知の状況を持つ複数の個体から配列情報を採取すること、または、複数の時点で複数の個体から配列情報を採取することにより、ゲノム再編成またはフェーズ情報に標的化されるデータベースの分析を通じてゲノム再編成またはフェーズ情報の洗練を容易にする。容易に明らかとなるように、場合によっては、配列情報の採取は、手術に従い採取された架橋サンプル、または薬物試験に従い採取されたFFPEサンプルなどの保存サンプルの使用により容易となる。
ゆえに、配列情報は、単独で、または、薬物試験結果または介入結果の情報と組み合わせて、採取される。配列データは、例えば本明細書に開示されるように構成されるコンピューターシステム上で機械学習にさらされて、健康状態のシグナルを単独で、または1つ以上の追加のマーカーを組み合わせて把握するゲノム再編成に相当するパターンを示すリードペアの部分集合を識別する。ゆえに、機械学習は場合によっては、配列、すなわちDNAまたはRNAの配列、または個体の健康状態の個々に有益なゲノム再編成の識別を容易にする。
上記の開示と一致する機械学習手法の一例は、コンボリューション・ニューラル・ネットワーク(CNN)である。CNNは、例えば正または負のサンプルの分類に有用である。典型的なCNNのアーキテクチャは、2つの完全に接続された畳みこみ隠れ層を含み、その各々の下には、ロジット活性化関数を用いて128、256、512、1024、または他のニューロンの数などの、2または2の因数でのみ割り切れるニューロンの数など、ニューロンの数の最大プーリング層と最終出力層が続く。代替的な実施形態において、広範囲のニューロン数が本開示に適合可能であり、エンドポイントにより規定される範囲中のそのような数は、50未満から、50、60、64、70、80、90、100、120、140、160、180、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2048、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、または3000を超えるものまで変動する。
CNNなどの機械学習の実施の一部から、訓練データはリードペア数の情報を使用し、染色体内基質は、例えば、対角線からリードペアマッピング点までの距離の逆数を使用して標準化される。代替的に、または組み合わせにおいて、CNNネットワークなどのマルチチャネル・ニューラル・ネットワークを作成するために、基準のマッピング可能性、制限部位分布、またはその他などの他のパラメーターが追加のチャネルとして使用される。
画像分類は、とりわけ、YOLO、Mask R-CNN、Fast R-CNNなどの手法といった多数の最先端技術ネットワークを介した特徴の局在化を使用して実行される。代替的に、特異的に調整したドメインのアーキテクチャは、特定用途のために設計される。
コンピューターシステム
図18Aは、本明細書で提供される方法を実施するようにプログラムまたは構成されるコンピューターシステム(401)を示す。コンピューターシステム(401)は、ユーザーまたはコンピューターシステムの電子デバイスであり、ユーザーまたはコンピューターシステムは、電子デバイスに対して遠隔に位置付けられる。電子デバイスはモバイル電子デバイスでもよい。
コンピューターシステム(401)は、中央処理装置(CPU、本明細書では「プロセッサー」および「コンピュータープロセッサー」)(405)を含み、これらはシングルコアまたはマルチコアプロセッサー、または並列処理のための複数のプロセッサーであり得る。コンピューターシステム(401)は、メモリーまたは記憶場所(410)(例えばランダムアクセスメモリー、読み取り専用メモリー、フラッシュメモリー)、電子記憶装置(415)(例えばハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース(420)(例えばネットワークアダプター)、およびキャッシュ、他のメモリー、データストレージ、および/または電子ディスプレイアダプターなどの周辺機器(425)も具備する。メモリー(410)、記憶装置(415)、インターフェース(420)、および周辺機器(425)は、マザーボードなどの通信バス(実線)を通じて、CPU(405)と通信する。記憶装置(415)は、データを記憶するためのデータ記憶装置(またはデータレポジトリ)であり得る。コンピューターシステム(401)は、通信インターフェース(420)の補助によりコンピューターネットワーク(「ネットワーク」)(430)に動作可能に連結され得る。ネットワーク(430)は、インターネットおよび/またはエクストラネット、または、インターネットと通信状態にあるイントラネットおよび/またはエクストラネットであり得る。場合によっては、ネットワーク(430)は、電気通信および/またはデータのネットワークである。ネットワーク(430)は、1つ以上のコンピューターサーバーを含むことができ、これはクラウドコンピューティングなどの分散コンピューティングを可能にし得る。ネットワーク(430)は、場合によってはコンピューターシステム(401)の補助により、ピアツーピア・ネットワークを実施することができ、これは、コンピューターシステム(401)に連結されたデバイスが、クライアントまたはサーバーとして動くことを可能にし得る。
CPU(405)は、機械可読命令のシーケンスを実行でき、これはプログラムまたはソフトウェア中に埋め込まれる。この命令は、メモリー(410)などの記憶場所に記憶され得る。この命令は、CPU(405)に向けることができ、これは後に、本開示の方法を実施するようにCPU(405)をプログラムまたは構成することができる。CPU(405)により実行される動作の例は、フェッチ、デコード、実行、およびライトバックを含み得る。
CPU(405)は集積回路などの回路の一部であり得る。システム(401)の1つ以上の他のコンポーネントを回路に含めることができる。場合によっては、回路は特定用途向け集積回路(ASIC)である。
記憶装置(415)は、ドライバー、ライブラリー、および保存されたプログラムなどのファイルを記憶できる。記憶装置(415)は、ユーザーデータ、例えばユーザーの嗜好性やユーザーのプログラムを保存可能である。コンピューターシステム(401)は、場合によっては、イントラネットまたはインターネットを通じてコンピューターシステム(401)と通信状態にあるリモートサーバー上に位置付けられるなど、コンピューターシステム(401)の外側にある1つ以上の追加のデータ記憶装置を含み得る。
コンピューターシステム(401)は、ネットワーク(430)を介して1つ以上の遠隔コンピューターシステムと通信できる。例えば、コンピューターシステム(401)は、ユーザー(例えばサービス提供者)のリモートコンピューターシステムと通信できる。リモートコンピューターシステムの例には、パーソナルコンピューター(例えば、持ち運び可能なPC)、スレートまたはタブレットPC(例えばApple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えばApple(登録商標)iPhone(登録商標)、Android-enabledデバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザーは、ネットワーク(430)を介してコンピューターシステム(401)にアクセスできる。
本明細書に記載されるような方法は、コンピューターシステム(401)の電子記憶場所、例えば、メモリー(410)または電子記憶装置(415)などに記憶された機械(例えば、コンピュータ処理装置)実行可能なコードとして実行され得る。機械実行可能または機械可読コードは、ソフトウェアの形で提供できる。
使用中、コードはプロセッサー(405)により実行され得る。場合によっては、コードは、電子記憶装置(415)から取得され、プロセッサー(1005)による容易なアクセスのためにメモリー(410)上に記憶可能である。いくつかの状況において、電子記憶装置(415)は除外することができ、機械実行可能命令がメモリ(410)に記憶される。
コードは、コードを実行するように適合されたプロセッサーを有する機械と共に使用するために予めコンパイルかつ構成され、または実行時にコンパイルされ得る。コードは、予めコンパイルされた、またはアズコンパイルされた(as-compiled)様式でコードが実行を可能にするために選択可能な、プログラミング言語で供給され得る。
コンピューターシステム(1001)などの本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化され得る。この技術の様々な態様は、典型的には一種の機械可読媒体上で運ばれる、またはそれに埋め込まれる機械(またはプロセッサー)実行可能コードおよび/または関連データの形で、「製品」または「製造用品」として考慮され得る。機械実行可能コードは、メモリー(例えば、読み取り専用メモリー、ランダムアクセスメモリー、フラッシュメモリー)またはハードディスクなどの電子記憶装置に記憶され得る。「記憶」型の媒体は、様々な半導体メモリー、テープドライブ、ディスクドライブなどの、コンピューターやプロセッサーの有形メモリー、または、その関連するモジュールの何れかまたはすべてを含むことができ、これらは、ソフトウェアのプログラミングのためにいかなる時も非一時的な記憶を提供し得る。ソフトウェアのすべてまたは一部は時折、インターネットなどの様々な電気通信ネットワークを介して通信される。そのような通信は、例えば、1つのコンピューターまたはプロセッサーから別のものへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアのローディングを可能にし得る。故に、ソフトウェア要素を有し得る別のタイプの媒体は、有線および光地上通信線ネットワークを通じた、および様々なエアリンク(air-links)上での、ローカルデバイス間の物理インターフェースにわたって使用されるものなどの、光波、電波、および電磁波を含む。有線または無線リンク、光リンクなどの、前述の波を運ぶ物理要素も、ソフトウェアを持つ媒体と考慮され得る。本明細書で使用されるように、非一時的で有形の「記憶」媒体に制限されない限り、コンピューターまたは機械「可読媒体」などの用語は、実行のためにプロセッサーに命令を提供することに関与する媒体を指す。
したがって、コンピューター実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むが、これらに限定されない多くの形態をとってもよい。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実施するために使用され得るものなど、コンピューターなどにおける記憶装置の何れかといった、光ディスクまたは磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータープラットフォームのメインメモリーなどのダイナミックメモリーを含む。有形送信媒体は、同軸ケーブル;コンピューターシステム内のバスを含むワイヤーを含む、銅線および光ファイバーを含んでいる。搬送波送信媒体は、無線周波(RF)および赤外線(IR)データ通信中に生成されたものなどの、電気信号または電磁気信号、または、音波または光波の形態をとり得る。ゆえに、コンピューター可読媒体の共通の形態は、例えば:フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、他の光学媒体、パンチカードペーパーテープ、ホールのパターンを備えた(with patterns of holes)他の物理的記憶媒体、RAM、ROM、PROM、およびEPROM、FLASH(登録商標)-EPROM、他のメモリーチップまたはカートリッジ、データまたは命令を運ぶ搬送波、そのような搬送波を運ぶケーブルまたはリンク、または、コンピューターがプログラミングコードおよび/またはデータを読み取る他の媒体を含む。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサーに1つ以上の命令の1つ以上のシーケンスを運ぶことを必要とし得る。
コンピューターシステム(401)は、例えば、訓練されたアルゴリズムの出力または読み出しを提供するためのユーザーインターフェース(UI)(440)を具備する電子ディスプレイ(435)を含む、またはそれと通信状態にあってもよい。UIの例には、限定されないが、グラフィカル・ユーザー・インターフェース(GUI)やウェブベースのユーザーインターフェースが挙げられる。
本開示の方法およびシステムは、1つ以上のアルゴリズムにより実施可能である。アルゴリズムは、中央処理装置(405)による実行後にソフトウェアにより実施可能である。
本明細書中のコンピューターシステムは、場合によっては、本明細書に開示されるもの、または当業者に既知のものなど、機械学習操作を実行するように構成される。
図18Bに例示されるコンピューターシステム(600)は、媒体(611)および/またはネットワークポート(605)から命令を読み取ることが可能な論理的な装置として理解され、固定された媒体(612)を持つサーバー(609)へと随意に接続され得る。図18Bに示されるものなどのシステムは、CPU(601)、ディスクドライブ(603)、キーボード(615)、および/またはマウス(616)などの随意の入力装置、および随意にモニター(607)を含み得る。データ通信は、局所または遠隔の位置にてサーバーへと、示された通信媒体を通じて達成され得る。通信媒体は、データを送信および/または受信する任意の手段を含み得る。例えば、通信媒体は、ネットワーク接続、無線接続、またはインターネット接続であり得る。そのような接続は、ワールド・ワイド・ウェブ上での通信を提供できる。本開示に関するデータは、図18Bに例示されるように当事者(622)による受理および/または検討のために、そのようなネットワークまたは接続上で伝達され得ることが想定される。
図18Cは、本明細書に記載の実施形態の例と関連して使用され得るコンピューターシステム(700)の第1の例のアーキテクチャを示す、ブロック図である。図18Cに表されるように、コンピューターシステムの例は、命令を処理するためのプロセッサー(702)を含む。プロセッサーの非限定的な例には、以下が挙げられる:Intel Xeon(商標)プロセッサー、AMD Opteron(商標)プロセッサー、Samsung 32-bit RISC ARM 1176JZ(F)-S v1.0(商標)プロセッサー、ARM Cortex-A8 Samsung S5PC100(商標)プロセッサー、ARM Cortex-A8 Apple A4(商標)プロセッサー、Marvell PXA 930(商標)プロセッサー、または機能的に同等なプロセッサー。複数のスレッドの実行が並列処理のために使用され得る。いくつかの実施形態において、複数のプロセッサー、または複数のコアを持つプロセッサーは、単一のコンピューターシステム中でも、クラスター中でも、または、複数のコンピューター、携帯電話、および/または個人用携帯情報端末装置を含むネットワーク上のシステムにわたって分布されても、使用され得る。
図18Cに例示されるように、高速キャッシュ(704)は、プロセッサー(702)に接続されるか、またはその中に組み込まれることで、プロセッサー(702)により近年使用されてきた、または頻繁に使用されている、命令またはデータのための高速メモリーを提供できる。プロセッサー(702)は、プロセッサーバス(708)によりノースブリッジ(706)に接続される。ノースブリッジ(706)は、メモリーバス(712)によりランダムアクセスメモリー(RAM)(710)に接続され、プロセッサー(702)によりRAM(710)へのアクセスを管理する。ノースブリッジ(706)はまた、チップセットバス(716)によりサウスブリッジ(714)に接続される。サウスブリッジ(714)は次に、周辺バス(718)に接続される。周辺バスは、例えばPCI、PCI-X、PCI Expressなどの周辺バスであり得る。ノースブリッジおよびサウスブリッジは多くの場合、プロセッサーチップセットと称され、周辺バス(718)上でプロセッサーと、RAMと、周辺コンポーネントとの間のデータ転送を管理する。いくつかの代替的な構成において、ノースブリッジの機能性は、別個のノースブリッジチップを使用する代わりにプロセッサーに組み込まれ得る。
いくつかの実施形態において、システム(700)は、周辺バス(718)に付けられたアクセラレーターカード(722)を含む。アクセラレーターは、特定の処理を速めるためのフィールド・プログラマブル・ゲート・アレイ(FPGA)などのハードウェアを含み得る。例えば、アクセラレーターは、適応データの再構築のために、または、拡張設定処理に使用される代数式を評価するために使用され得る。
ソフトウェアとデータは、外部記憶装置(724)に記憶され、プロセッサーによる使用のためにRAM(710)および/またはキャッシュ(704)へとロードされ得る。システム(2000)は、システムリソースの管理のためのオペレーティングシステムを含み;オペレーティングシステムの非限定的な例には、以下が挙げられる:Linux(登録商標)、Windows(商標)、MACOS(商標)、BlackBerry OS(商標)、iOS(商標)、およびその他機能的に同等なOS、同様に、本発明の実施形態の例に従ってデータの記憶と最適化を管理するためのオペレーティングシステム上で実行されるアプリケーションソフトウェア。
この例において、システム(700)はまた、ネットワーク接続ストレージ(NAS)などの外部記憶装置、および分散並列処理に使用され得る他のコンピューターシステムにネットワークインターフェースを設けるために、周辺バスに接続されるネットワーク・インターフェース・カード(NIC)(720)および(721)を含む。
図18Dは、複数のコンピューターシステム(2102a)および(2102b)、複数の携帯電話および個人用携帯情報端末(2102c)、およびネットワーク接続ストレージ(NAS)(2104a)および(2104b)を含む、ネットワーク(2100)を示す略図である。実施形態の例において、システム(2102a)、(2102b)、および(2102c)は、データ記憶を管理し、ネットワーク接続ストレージ(NAS)(2104a)および(2104b)に記憶されたデータに対するデータアクセスを最適化できる。数学モデルがこのデータに対して使用され、コンピューターシステム(2102a)および(2102b)、および携帯電話および個人用携帯情報端末システム(2102c)にわたって分散並列処理を使用して評価され得る。コンピューターシステム(2102a)および(2102b)、および携帯電話および個人用携帯情報端末システム(2102c)はまた、ネットワーク接続ストレージ(NAS)(2104a)および(2104b)に記憶されたデータの適応データ再構築に対して並列処理を提供できる。図18Dは一例のみを例示しており、様々な他のコンピューターのアーキテクチャとシステムは、本発明の様々な実施形態と共に使用され得る。例えば、ブレードサーバーが、並列処理を提供するために使用され得る。プロセッサーブレードは、並列処理を提供するためにバックプレーンを通じて接続され得る。ストレージはまた、別個のネットワークインターフェースを通ってバックプレーンに、またはネットワーク接続ストレージ(NAS)として接続され得る。
いくつかの実施形態の例において、プロセッサーは、別個のメモリー空間を維持し、ネットワークインターフェース、バックプレーン、または他のプロセッサーによる並列処理のための他のコネクターを通じてデータを伝達可能である。他の実施形態において、プロセッサーの一部またはすべてが、共有仮想アドレスメモリ空間を使用できる。
図18Eは、実施形態の例に従って共有仮想アドレスメモリ空間を使用するマルチプロセッサー・コンピューター・システム(900)のブロック図である。該システムは、共有メモリーサブシステム(904)にアクセス可能な複数のプロセッサー(902a-f)を含む。システムは、メモリーサブシステム(904)に複数のプログラマブルハードウェアのメモリー・アルゴリズム・プロセッサー(MAP)(906a-f)を組み込む。MAP(906a-f)は各々、メモリー(908a-f)および1以上のフィールド・プログラマブル・ゲート・アレイ(FPGA)(910a-f)を含み得る。MAPは設定可能な機能ユニットを提供し、特定のアルゴリズムまたはその一部は、各プロセッサーと密接に協働して処理を行うためにFPGA(910a-f)に設けられ得る。例えば、MAPは、データモデルに関する代数式を評価し、かつ実施形態の例における適応データの再構築を行うために使用され得る。この例において、各MAPは、このような目的のためにプロセッサーすべてによって世界的にアクセス可能である。1つの構成において、MAPは各々、関連するメモリー(908a-f)にアクセスするためにダイレクト・メモリー・アクセス(DMA)を使用可能であり、それにより、各マイクロプロセッサー(902a-f)とは別個に、かつこれらから非同期的にタスクを実行可能となる。この構成において、MAPは、パイプライン処理(pipelining)およびアルゴリズムの並列の実行のために別のMAPに結果を直接供給できる。
上述のコンピューターのアーキテクチャとシステムは単なる例であり、様々な他のコンピューター、携帯電話、個人用携帯情報端末のアーキテクチャとシステムが、一般的なプロセッサー、コプロセッサー、FPGA、および他のプログラム可能論理回路の任意の組み合わせを使用するシステム、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、および他の処理要素と論理素子を含む実施形態の例と共に、使用され得る。いくつかの実施形態において、コンピューターシステムのすべてまたは一部は、ソフトウェアまたはハードウェアに実装され得る。様々なデータ記憶媒体が実施形態の例と共に使用され得、例えばランダムアクセスメモリー、ハードドライブ、フラッシュメモリー、テープドライブ、ディスクアレイ、ネットワーク接続ストレージ(NAS)、および他のローカルまたは分散データ記憶デバイスとシステムが挙げられる。
実施形態の例において、コンピューターシステムは、上述または他のコンピューターのアーキテクチャおよびシステムの何れかにて実行されるソフトウェアモジュールを使用して実施され得る。他の実施形態において、システムの機能は、ファームウェア、図18Eで言及されるようなフィールド・プログラマブル・ゲート・アレイ(FPGA)などのプログラム可能論理回路、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、または他の処理要素や論理素子において部分的または完全に実施され得る。
本出願の出願時点で使用中の方法に対して、本明細書に開示される方法とシステムは、多数の利点を提供する。
本明細書に開示される方法および計算システムの一部は、生物体の染色体の数には依存しない様式でコンティグをクラスター化する。単連結クラスター化のためのコンティグ間の連結に対して保存的な閾値が適用されることで、結果として生じるより小さなコンティグクラスターをスキャホールドへとアセンブルし、後のスキャフォールディングの連結は、本明細書に開示される様々な方法により可能となる。
いくつかの実施形態において、本明細書に開示される方法は、実質的にクラスター化を必要としないが、スパニング・ツリー・ステップ、その後、位相樹木の剪定へと進む。いくつかの実施形態において、1より多くのクラスター化方法が使用可能であり、例えばMarkov Cluster Algorithm(MCLアルゴリズム)がある。理論に縛られることなく、ミスアセンブリは、必要以上に注意を払いこれらの縁を処置し、かつアセンブリの誤った結合を回避することにより、位相剪定によって妨げられ得る。
スキャホールド中のコンティグの順序を固定した後、配向を、ダイナミック・プログラミング・アルゴリズムの使用により最適化できる。そのような手法は、スコアに対する順序付けの貢献が最適化されている際に隣接するコンティグのペアへとマッピングされたペアのみを読み取り、外部にあるおよびアセンブルされていない優れたフラグメントペアの最大分離よりも短いコンティグを除外する。配向工程を改善するために、最近傍コンティグスコアの相互作用に加えて、最近傍コンティグスコアの相互作用でないコンティグは、例えば順序付けした2以上のコンティグの値、例えば2、3、4、5、6、7、8、9、10以上を用いて、最大w-2の介入コンティグ内のコンティグのペアへとマッピングされたすべてのペアのデータを組み込むアルゴリズムの使用によって、検討され得る。
いくつかの実施形態において、インターカレーション工程の精度は改善可能である。理論に縛られることなく、トランクの作成後の優れたリードペア間の最大分離よりも短いコンティグを持つアセンブリにおいて、順序付けに沿ったwコンティグの近傍内にあるコンティグのデータは、トランクからコンティグを除外し、かつ、隣接するコンティグ間の結合の量を最大限にする部位にて再挿入する場合に、含まれる。
他のいくつかの実施形態において、配向工程は、より多くの最近傍コンティグスコアの相互作用を考慮することにより改善可能である。スキャホールド中のコンティグの順序を固定した後、コンティグ配向を、ダイナミック・プログラミング・アルゴリズムの使用により最適化する。順序付けにおける隣接したペアへとマッピングされたリードペアのみが、最適化されているスコアに寄与する。場合によっては、順序付けにおける最大w-2の介入コンティグ内のコンティグのペアへとマッピングされたすべてのペアのデータを組み込むアルゴリズムが、優れたフラグメントペアの最大分離よりも短いあらゆるコンティグを持つアセンブリに使用され得る。例えば、順序付けにおける2つ以上のコンティグの値、例えば2、3、4、5、6、7、8、9、または10以上が使用される。
いくつかの実施形態において、順序付け工程と配向工程をより厳密に統合することにより、順序付けと配向両方の精度を改善できる。初期のグラフを構築することができ、このグラフにおいて、ノードはコンティグ端部であり、各コンティグの2つの末端ノードは縁により結合される。特定の短いギャップサイズの仮定中にコンティグ内の縁の対数尤度比率スコアを算出し、選別した。縁のスコアの順序を減らす際にリストを下ると、新たな縁が、アセンブリの全スコアを増加または減少させるかに応じて、受け入れられ、または拒絶される。正のスコアを伴う均一な縁は、アセンブリ中のコンティグのスコアの合計を減らしかねない場合があり、なぜなら、既存のスキャホールドのギャップへのコンティグのインターカレーションを示唆する縁を受け入れることで、ギャップの何れかの側にある結合したコンティグのペア間のギャップサイズを増大させ、おそらくはそれらに低いスコアを付与することに、留意されたい。
加えて、最大尤度ギャップサイズを効率的に計算できる。報告されたアセンブリの全体的な精度は、連続するコンティグ間の未知の配列の長さを推定することで増大され得る。ライブラリーのリードペア間の分離dに対するモデル確率密度関数(PDF)を含むライブラリー作成プロセスのモデルを考慮すると、最大尤度ギャップの長さは、ギャップに及ぶペアの分離diの結合尤度を最大限にすることで見出され得る。微分可能なモデルPDFに関して、効率的な反復最適化方法(例えば、Newton-Raphson)を使用できる。
本明細書に開示される方法と組成物の要素は、コンティグが、例えば、コンティグの順序、配向、または順序と配向に関して2、3、4、5、または6以上のコンティグのコンティグウィンドウ中の最適点である構成へとアセンブルされ、一方で、8、7、6、5、4、3、または2時間未満などの比較的短い時間で実行可能または獲得可能であるもの、である。ゆえに、場合によっては、本明細書中の方法により、高度の算出能力が、大量の算出時間を使用せず、かつ全体的に非常に大きな算出空間を探索する必要なしに、計算上集約的な問題へともたらされ得る。むしろ、局所的順序付けは、コンティグの適度に正確な順序付けを達成し、その後、算出強度は、大半の場合に一度にすべてのコンティグを全体的に最適化するよりむしろ、コンティグの局所的ウィンドウを最適化することに費やされる。場合によっては、3、4、5、または6に及ぶウィンドウサイズを使用して、構成の最適化が、8、7、6、5、4、3、または2時間未満で行われる。より大きなウィンドウサイズに関して、構成の最適化は、数日から最大一週間で達成される。
デジタル処理デバイス
いくつかの実施形態において、本明細書に記載されるコンティグアセンブリ方法は、デジタル処理装置、またはその使用を含む。更なる実施形態において、デジタル処理デバイスは、デバイスの機能を実行する1つ以上のハードウェア中央処理装置(CPU)を備える。また更なる実施形態において、デジタル処理デバイスは、実行可能命令を実行するように構成されるオペレーティングシステムを更に含む。いくつかの実施形態において、デジタル処理デバイスはコンピューターネットワークに随意に接続される。更なる実施形態において、デジタル処理デバイスは、ワールド・ワイド・ウェブにアクセスするようインターネットに随意に接続される。また更なる実施形態において、デジタル処理デバイスは、クラウド・コンピューティング・インフラストラクチャーに随意に接続される。他の実施形態において、デジタル処理デバイスはイントラネットに随意に接続される。他の実施形態において、デジタル処理デバイスはデータ記憶デバイスに随意に接続される。
本明細書の記載に従って、適切なデジタル処理装置には、非限定的な例として、サーバーコンピューター、デスクトップコンピューター、ラップトップコンピューター、ノートブックコンピューター、サブノートブックコンピューター、ネットブックコンピューター、ネットパッドコンピューター、セットトップコンピューター、メディアストリーミングデバイス、ハンドヘルドコンピューター、インターネット家電、モバイルスマートフォン、タブレットコンピューター、携帯情報端末、ビデオゲーム機、および伝達手段が挙げられる。当業者は、多くのスマートフォンが、本明細書に記載されるシステムにおいて使用するのに適していることを認識する。当業者はまた、随意のコンピューターネットワークの接続性を備えた、選択したテレビ、ビデオプレーヤー、およびデジタル音楽プレーヤーが、本明細書に記載されるシステムにおいて使用するのに適していることを認識する。適切なタブレットコンピューターには、当業者に既知の、ブックレット、スレート、および変換可能な構成を備えたものが挙げられる。
いくつかの実施形態において、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションの実施のためのサービスを提供するプログラムおよびデータを含む、ソフトウェアである。当業者は、適切なサーバー・オペレーティング・システムには、限定されないが、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Apple(登録商標)、Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が挙げられることを認識する。当業者は、適切なパーソナル・コンピューター・オペレーティング・システムには、限定されないが、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、および、GNU/Linux(登録商標)などのUNIX(登録商標)のようなオペレーティングシステムが挙げられることを認識する。いくつかの実施形態において、オペレーティングシステムは、クラウドコンピューティングによって提供される。当業者はまた、適切なモバイルスマートフォンのオペレーティングシステムには、限定されないが、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)BlackBerry OS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)Windows Phone(登録商標)OS、Microsoft(登録商標)Windows Mobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)が挙げられることを認識する。
いくつかの実施形態において、デバイスは、記憶デバイスおよび/またはメモリーデバイスを含む。記憶デバイスおよび/またはメモリーデバイスは、一時的または恒久的な基礎に基づいてデータまたはプログラムを記憶するために使用される、1以上の物理的な装置である。いくつかの実施形態において、デバイスは揮発性メモリーであり、記憶した情報を維持するために電力を必要とする。いくつかの実施形態において、デバイスは不揮発性メモリーであり、デジタル処理デバイスに電力が供給されないときにも記憶した情報を保持する。更なる実施形態において、不揮発性メモリーはフラッシュメモリーを含む。いくつかの実施形態において、不揮発性メモリーはダイナミック・ランダム・アクセス・メモリー(DRAM)を含む。いくつかの実施形態において、不揮発性メモリーは、強誘電体ランダムアクセスメモリー(FRAM(登録商標))を含む。いくつかの実施形態において、不揮発性メモリーは、相変化ランダムアクセスメモリー(PRAM)を含む。随意に、デバイスは、限定されないが、CD-ROM、DVD、フラッシュメモリーデバイス、磁気ディスクドライブ、光ディスクドライブ、およびクラウドコンピューティングベースの記憶装置を含む、記憶デバイスである。更なる実施形態において、記憶デバイスおよび/またはメモリーデバイスは、本明細書に開示されるものなどのデバイスの組み合わせである。
一部のデジタル処理装置は、視覚情報をユーザーに送信するためのディスプレイ、例えば、ブラウン管(CRT)、液晶ディスプレイ(LCD)、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)、パッシブマトリクスOLED(PMOLED)などの有機発光ダイオード(OLED)ディスプレイ、またはアクティブマトリクスOLED(AMOLED)ディスプレイを含む。プラズマディスプレイ、ビデオプロジェクター、または本明細書に開示されるものなどのデバイスの組み合わせ。
多くの場合、デジタル処理装置は、ユーザーから情報を受信するための入力デバイス、例えば、キーボード、非限定的な例としてマウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラー、またはスタイラスといったポインティングデバイスを含む。いくつかの実施形態において、入力デバイスは、タッチスクリーンまたはマルチタッチスクリーン、音声または他の音入力を捉えるマイクロフォンまたはビデオカメラ、または動きや視覚入力を捉える他のセンサーである。更なる実施形態において、入力デバイスは、Kinect、Leap Motionなどである。多くの場合、入力デバイスは、本明細書に開示されるものなどのデバイスの組み合わせである。
非一時的コンピューター可読記憶媒体
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、随意にネットワーク化されたデジタル処理デバイスのオペレーティングシステムによって実行可能な命令を含むプログラムでコードされた、1つ以上の非一時的コンピューター可読記憶媒体を含む。更なる実施形態において、コンピューター可読記憶媒体はデジタル処理デバイスの有形部品である。また更なる実施形態において、コンピューター可読記憶媒体は、デジタル処理デバイスから随意に取り外し可能である。いくつかの実施形態において、コンピューター可読記憶媒体には、限定されないが、CD-ROM、DVD、フラッシュメモリーデバイス、固体記憶装置、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどが挙げられる。場合によっては、プログラムと命令は、永続的に、ほぼ永続的に、半永続的に、または非一時的に、媒体上でコードされる。
コンピュータープログラム
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、少なくとも1つのコンピュータープログラム、またはその使用を含む。コンピュータープログラムは、デジタル処理デバイスのCPUにおいて実行可能であり、特別なタスクを実行するために書かれた、一連の命令を含む。コンピューター可読命令は、特定のタスクを実行する、または特定の抽象データ型を実装する、機能、オブジェクト(objects)、アプリケーション・プログラム・インターフェース(API)、データ構造などのプログラムモジュールとして実施されてもよい。本明細書で提供される開示に照らして、当業者は、コンピュータープログラムが様々な言語の様々なバージョンで書かれ得ることを認識する。
コンピューター可読の命令の機能性は、様々な環境に所望されるように組み合わせられるか、または分布されてもよい。いくつかの実施形態において、コンピュータープログラムは1つの連続した命令を含む。いくつかの実施形態において、コンピュータープログラムは複数の連続した命令を含む。いくつかの実施形態において、コンピュータープログラムは、1つの場所から提供される。他の実施形態において、コンピュータープログラムは複数の場所から提供される。様々な実施形態において、コンピュータープログラムは、1以上のソフトウェアモジュールを含む。様々な実施形態において、コンピュータープログラムは、部分的または全体的に、1以上のウェブアプリケーション、1以上のモバイルアプリケーション、1以上の独立型アプリケーション、1以上のウェブ・ブラウザ・プラグイン、エクステンション、アドイン、またはアドオン、またはそれらの組み合わせを含む。
ウェブアプリケーション
いくつかの実施形態において、コンティグアセンブリ方法を実施するコンピュータープログラムは、ウェブアプリケーションを備える。本明細書で提供される開示に照らして、当業者は、ウェブアプリケーションが、様々な実施形態において、1以上のソフトウェアフレームワークおよび1以上のデータベースシステムを利用することを認識する。いくつかの実施形態において、ウェブアプリケーションは、Microsoft(登録商標).NETまたはRuby on Rails(RoR)などのソフトウェアフレームワーク上で作成される。いくつかの実施形態において、ウェブアプリケーションは、限定されないが、リレーショナル、非リレーショナル、オブジェクト指向、連想型、およびXMLのデータベースシステムを含む、1以上のデータベースシステムを利用する。更なる実施形態において、適切なリレーショナルデータベースシステムには、限定されないが、Microsoft(登録商標)SQL Server、mySQL(商標)、およびOracle(登録商標)が挙げられる。当業者は、ウェブアプリケーションが、様々な実施形態において1以上の言語の1以上のバージョンで書かれることを認識する。ウェブアプリケーションは、1以上のマークアップ言語、プレゼンテーション定義言語、クライアント側スクリプト言語、サーバー側コード化言語、データベース照会言語、またはそれらの組み合わせで書かれてもよい。いくつかの実施形態において、ウェブアプリケーションは、Hypertext Markup Language(HTML)、Extensible Hypertext Markup Language(XHTML)、またはeXtensible Markup Language(XML)などのマークアップ言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、Cascading Style Sheets(CSS)などのプレゼンテーション定義言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、Asynchronous Javascript and XML(AJAX)、Flash(登録商標)Actionscript、Javascript、またはSilverlight(登録商標)などのクライアント側スクリプトで、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、Active Server Pages(ASP)、ColdFusion(登録商標)、Perl、Java(商標)、JavaServer Pages(JSP)、Hypertext Preprocessor(PHP)、Python(商標)、Ruby、Tcl、Smalltalk、WebDNA(登録商標)、またはGroovyなどのサーバー側コード化言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、Structured Query Language(SQL)などのデータベース照会言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、IBMR Lotus Domino(登録商標)などの企業サーバー製品を統合する。いくつかの実施形態において、ウェブアプリケーションはメディアプレーヤー要素を含む。様々な更なる実施形態において、メディアプレーヤー要素は、限定されないが、Adobe(登録商標)Flash(登録商標)、HTML 5、Apple(登録商標)QuickTime(登録商標)、Microsoft(登録商標)Silverlight(登録商標)、Java(登録商標)、及びUnity(登録商標)を含む、多くの適切なマルチメディア技術の1つ以上を利用する。
モバイルアプリケーション
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法を実施するコンピュータープログラムは、モバイルデジタル処理デバイスに設けられるモバイルアプリケーションを備える。いくつかの実施形態において、モバイルアプリケーションは、製造時にモバイルデジタル処理デバイスに設けられる。他の実施形態において、モバイルアプリケーションは、本明細書に記載されるコンピューターネットワークを介してモバイルデジタル処理デバイスに設けられる。
本明細書で提供される開示を考慮して、モバイルアプリケーションは、当該技術分野で既知のハードウェア、言語、および開発環境を使用する、当業者に既知の技術によって作成される。当業者は、モバイルアプリケーションが様々な言語で書かれることを認識する。適切なプログラミング言語には、限定されないが、C、C++、C#、Objective-C、Java(商標)、Javascript、Pascal、Object Pascal、Python(商標)、Ruby、VB.NET、WML、および、CSSの有無にかかわらずXHTML/HTML、またはそれらの組み合わせを含む。
適切なモバイルアプリケーション開発環境は、様々なソースから利用可能である。市販で入手可能な開発環境には、限定されないが、AirplaySDK、alcheMo、Appcelerator(登録商標)、Celsius、Bedrock、Flash Lite、.NET Compact Framework、Rhomobile、およびWorkLight Mobile Platformが挙げられる。他の開発環境はコスト無しで利用可能であり、限定されないが、Lazarus、MobiFlex、MoSync、およびPhonegapが挙げられる。また、モバイルデバイスのメーカーは、限定されないが、iPhone(登録商標)およびiPad(登録商標)(iOS)SDK、Android(商標)SDK、BlackBerry(登録商標)SDK、BREW SDK、Palm(登録商標)OS SDK、Symbian SDK、webOS SDK、およびWindows(登録商標)Mobile SDKを含む、ソフトウェア開発キットを流通させている。
当業者は、様々な商用のフォーラムが、限定されないが、Apple(登録商標)App Store、Android(商標)Market、BlackBerry(登録商標)App World、Palm devicesのApp Store、webOSのApp Catalog、MobileのWindows(登録商標)Marketplace、Nokia(登録商標)デバイスのOvi Store、Samsung(登録商標)App、およびNintendo(登録商標)DSi Shopを含む、モバイルアプリケーションの流通に利用可能であることを認識する。
独立型アプリケーション
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法を実施するコンピュータープログラムは、独立型アプリケーションを備え、これは、既存のプロセスへのアドオン、例えばプラグインではなく、独立したコンピュータープロセスとして実行されるプログラムである。当業者は、独立型アプリケーションが頻繁にコンパイルされることを認識する。コンパイラーは、プログラミング言語で書かれたソースコードを、アセンブリ言語または機械コードなどのバイナリオブジェクト・コード(binary object code)へと変換させるコンピュータープログラムである。適切なコンパイルされたプログラミング言語には、限定されないが、C、C++、Objective-C、COBOL、Delphi、Eiffel、Java(商標)、Lisp、Python(商標)、Visual Basic、およびVB.NET、またはそれらの組み合わせが挙げられる。コンパイルは多くの場合、実行可能なプログラムを作成するために少なくとも部分的に行なわれる。いくつかの実施形態において、コンピュータープログラムは、1以上の実行可能な、コンパイルされたアプリケーションを備える。
ウェブ・ブラウザ・プラグイン
いくつかの実施形態において、コンティグアセンブリ方法は、ウェブ・ブラウザ・プラグインを備える。計算において、プラグインは、より大きなソフトウェアアプリケーションに特異的な機能性を加える、1以上のソフトウェアコンポーネントである。ソフトウェアアプリケーションのメーカーは、第三者である開発者が、アプリケーションを拡張させる性能を作り出し、新たな機能の容易な追加を支援し、かつアプリケーションのサイズを減らすことを可能にするように、プラグインを支持する。支持されると、プラグインは、ソフトウェアアプリケーションの機能性のカスタマイズを可能にする。例えば、プラグインは、ビデオを再生し、対話性を生成し、ウイルスをスキャンし、および特定のファイルタイプを表示するために、ウェブブラウザにおいて一般的に使用される。当業者は、Adobe(登録商標)Flash(登録商標)Player、Microsoft(登録商標)Silverlight(登録商標)、およびApple(登録商標)QuickTime(登録商標)を含む、様々なウェブブラウザのプラグインに精通している。いくつかの実施形態において、ツールバーは、1以上のウェブブラウザの拡張、アドイン、またはアドオンを含む。いくつかの実施形態において、ツールバーは、1以上のエクスプローラーバー、ツールバンド、またはデスクバンドを含む。
本明細書で提供される開示を考慮して、当業者は、限定されないがC++、Delphi、Java(商標)、PHP、Python(商標)、およびVB.NETを含む様々なプログラミング言語でのプラグインの開発を可能にする、様々なプラグイン・フレームワークが利用可能であることを認識する。
ウェブブラウザ(インターネットブラウザとも呼ばれる)は、ワールド・ワイド・ウェブ上で情報資源を検索、提示、およびトラバースする(traversing)ための、ネットワーク接続のデジタル処理デバイスとの使用のために設計される、ソフトウェアアプリケーションである。適切なウェブブラウザには、限定されないが、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、Opera Software(登録商標)Opera(登録商標)、およびKDE Konquerorが挙げられる。いくつかの実施形態において、ウェブブラウザはモバイルウェブブラウザである。モバイルのウェブブラウザ(マイクロブラウザ、ミニブラウザ、およびワイヤレスブラウザとも呼ばれる)は、非限定的な例として、ハンドヘルドコンピューター、タブレットコンピューター、ネットブックコンピューター、サブノートブックコンピューター、スマートフォン、ミュージックプレーヤー、携帯情報端末(PDA)、およびハンドヘルド・ビデオ・ゲーム・システムを含む、モバイルデジタル処理デバイスでの使用のために設計されている。適切なモバイルウェブブラウザには、限定されないが、Google(登録商標)Android(登録商標)ブラウザ、RIM BlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)Browser、携帯用のMozilla(登録商標)Firefox(登録商標)、Microsoft(登録商標)Internet Explorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)Basic Web、Nokia(登録商標)ブラウザ、Opera Software(登録商標)Opera(登録商標)Mobile、およびSony(登録商標)PSP(商標)ブラウザが挙げられる。
ソフトウェアモジュール
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、ソフトウェア、サーバー、および/またはデータベースモジュール、またはそれらの使用を含む。本明細書で提供される開示を考慮して、ソフトウェアモジュールは、当該技術分野で既知のマシン、ソフトウェア、および言語を使用する、当業者に既知の技術製品によって作り出される。本明細書に開示されたソフトウェアモジュールは、多数の方法で実装される。様々な実施形態において、ソフトウェアモジュールは、ファイル、コードのセクション、プログラミングオブジェクト、プログラミング構造、またはそれらの組み合わせを含む。更に様々な実施形態において、ソフトウェアモジュールは、複数のファイル、コードの複数のセクション、複数のプログラムミングオブジェクト、複数のプログラムミング構造、またはそれらの組み合わせを含む。様々な実施形態において、1以上のソフトウェアモジュールは、限定されないが、ウェブアプリケーション、モバイルアプリケーション、および独立型アプリケーションを含む。いくつかの実施形態において、ソフトウェアモジュールは、1つのコンピュータープログラムまたはアプリケーションにある。他の実施形態において、ソフトウェアモジュールは、1より多くのコンピュータープログラムまたはアプリケーションにある。いくつかの実施形態において、ソフトウェアモジュールは1つのマシン上でホストされる(hosted)。他の実施形態において、ソフトウェアモジュールは1より多くのマシン上でホストされる。更なる実施形態において、ソフトウェアモジュールは、クラウド・コンピューティング・プラットフォーム上でホストされる。いくつかの実施形態において、ソフトウェアモジュールは、1つの場所にある1つ以上のマシン上でホストされる。他の実施形態において、ソフトウェアモジュールは、1より多くの場所にある1つ以上のマシン上でホストされる。
データベース
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、1つ以上のデータベース、またはその使用を含む。本明細書で提供される開示を考慮して、当業者は、多くのデー夕ベースが、コンティグ情報の保管と検索に適切であることを認識する。様々な実施形態において、適切なデータベースには、限定されないが、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向型データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース、およびXMLデータベースが挙げられる。他の実施形態において、デー夕ベースはインターネットベースである。更なる実施形態において、データベースはウェブベースである。また更なる実施形態において、デー夕ベースは、クラウドコンピューティングベースである。他の実施形態において、データベースは、1以上のローカルコンピューター記憶デバイスをベースとする。
診断上の用途
本明細書中のシステムと方法は、薬物の選択または評価、または他の治療レジメンに適用可能である。本開示の実施を通じて、癌組織などの組織は、薬物候補を示す構造的な再編成に関して評価される。例えば、局所的密度変異または局所的密度変異パターンは、場合によっては、特定の遺伝子の変化を示す。例えば、分析に関与する再編成は、特定の治療に応答すると知られる、またはその疑いのあるゲノムバックグラウンドを形成するように、遺伝子のトランケーション、欠失、または融合を必要とし得る。実行される分析は治療方針を示し、薬物が示される。多くの場合、薬物または他の治療のレジメンは、医療従事者または患者に提唱され、または、分析されたサンプルに関連する健康状態に対処するように患者に適用される。
代替的に、または組み合わせにおいて、本明細書に開示されるようなシステムと方法を利用して、個体、例えばゲノム再編成が治療中の障害に関係する個体に適用した薬物または他の処置レジメンの成功をモニタリングする。サンプルは、本明細書に開示されるように採取および分析されることで、局所的密度パターンを識別される。多くの場合、必ずしもそうではないが、局所的密度変異は、疾患に関連付けられる特定のゲノム再編成に関係し、処置の手法を示唆し、または、疾患進行(サンプル中の再編成の存在量を介するなどの)を示す。薬物処置などの処置レジメンは、単独で、または、他の処置工程、または薬物を必要としない他の工程と組み合わせて、疾病の症状を処置または改善するように試みられる。第2のサンプルは、本明細書に開示されるように採取および分析されることで、局所的密度パターンを識別される。このパターン、または結果としてもたらされる分析を、処置レジメンの前、またはそれより早く観察されたものと比較することで、レジメンの効果、例えば、腫瘍中の特定の再編成の存在量の減少における薬物の効果、または、癌腫瘍などの特定の組織疾患の原因となる、またはそれに関連する疑いのある組織を切除または減少させる際の外科的介入などの処置レジメンの効果などを評価する。評価は、処置レジメンを止めること、処置レジメンを減少させること、第2の処置レジメンを始めること、処置レジメンを変更せず継続させること、処置レジメンを増大させること、処置レジメンをモニタリングと置き換えること、または他のレジメン入力を多様に含む。
本開示に関連する番号付きの実施形態
本開示はさらに、以下の番号付きの実施形態への言及を通じて明確にされ、この実施形態は数的順序で提示されるが、以下の数により示される相互関係に加えて、互いに、かつ本明細書の残部と容易に相関付けられる。番号付き実施形態は、本開示をさらに明確にし、かつ実施形態の発明特定事項を詳述する請求項を支持するために提示される。1.核酸構造変異検出の方法であって、該方法は、a)リードペア情報を基準核酸スキャホールド上にマッピングする工程;b)リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にあるように、リードペア位置を第1のビンに割り当てる工程;およびc)第1ビンのマッピング可能性値に基づいてコピー数変異を推定する工程を含む、方法。2.コピー数変異を標準化する工程をさらに含む、実施形態1に記載の方法。3.2つのサンプルのマッピングされたリード密度を互いに対してプロットすることにより、マッピング可能性を視覚化する工程をさらに含む、実施形態1に記載の方法。4.核酸構造変異検出の方法であって、該方法は、a)リードペア情報を基準核酸スキャホールド上にマッピングする工程;b)リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にあるように、リードペア位置を第1のビンに割り当てる工程;c)リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程;d)画像中の共通の角を共有する4つのピクセルの少なくとも1つの群に対してzスコアを算出する工程であって、zスコアは隣接するピクセル間の対比によって表される、工程;およびe)zスコアが閾値を超えたときに候補ヒットを識別する工程を含む、方法。5.基準核酸スキャホールドはゲノムである、実施形態1乃至4の何れか1つに記載の方法。6.各データセットは、異なるペアエンドリード方向から得られる、実施形態1乃至4の何れか1つに記載の方法。7.候補ヒットは転座である、実施形態1乃至4の何れか1つに記載の方法。8.候補ヒットは逆位である、実施形態1乃至4の何れか1つに記載の方法。9.候補ヒットは欠失である、実施形態1乃至4の何れか1つに記載の方法。10.候補ヒットは重複である、実施形態1乃至4の何れか1つに記載の方法。11.候補ヒットは、染色体間の構造変異である、実施形態1乃至4の何れか1つに記載の方法。12.サンプル中の対立遺伝子変異の混合物をモデル化するためのシステムであって、該システムは、重み付きゲノム・スキャホールド・モデルのセットであって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、セット;およびライブラリーによりサンプリングされたリードペアがビンの中にあるかを予測するために少なくとも2つのゲノム・スキャホールド・モデルの対数尤度の比率を算出するためのモジュールを含む、システム。13.ゲノム・スキャホールド・モデルに対する候補修飾を提示する、少なくとも1つの特徴検出器モジュールを更に含む、実施形態1乃至12の何れか1つに記載のシステム。14.少なくとも1つの特徴検出器モジュールは、配列変異のビン境界を決定する、実施形態1乃至13の何れか1つに記載のシステム。15.配列変異は転座である、実施形態1乃至14の何れか1つに記載のシステム。16.配列変異は逆位である、実施形態1乃至14の何れか1つに記載のシステム。17.配列変異は欠失である、実施形態1乃至14の何れか1つに記載のシステム。18.配列変異は重複である、実施形態1乃至14の何れか1つに記載のシステム。19.少なくとも1つの特徴検出器モジュールからの入力に基づいて代替的なモデルを生成するモジュールをさらに含む、実施形態1乃至12の何れか1つに記載のシステム。20.サンプル中の対立遺伝子変異をモデル化する方法であって、該方法は、a)重み付きゲノム・スキャホールド・モデルのセットを生成する工程であって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、工程;b)基準配列上にマッピングされたリードペア配列決定情報を説明するモデルの能力に基づいてスコアを算出する工程であって、より高いスコア値はより多くの予測モデルを示す、工程;およびc)スコア値を最大限にするために付加的なモデルを反復して加える工程を含む、方法。21.リードペア配列決定情報は逆位を含む、実施形態1乃至20の何れか1つに記載の方法。22.リードペア配列決定情報は転座を含む、実施形態1乃至20の何れか1つに記載の方法。23.リードペア配列決定情報は重複を含む、実施形態1乃至20の何れか1つに記載の方法。24.リードペア配列決定情報は欠失を含む、実施形態1乃至20の何れか1つに記載の方法。25.特徴を検出する工程をさらに含み、該工程は、スコア値を増大させるためにモデル中のビンを結合または分離することを含む、実施形態1乃至21の何れか1つに記載の方法。26.サンプルは癌細胞である、実施形態1乃至20の何れか1つに記載の方法。27.核酸構造変異検出の方法であって、該方法は、a)リードペア情報を、予測された核酸スキャホールド上にマッピングする工程;b)リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にあるように、リードペア位置を第1のビンに割り当てる工程;c)リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程;およびd)共通の結合配列フラグメントにより接続される2つの配列フラグメントに対応する二次元画像中の少なくとも1つの特徴を識別する工程を含む、方法。28.正確な順序で共通の結合配列フラグメントにより接続される2つの配列フラグメントをアセンブルする工程を含む、実施形態1乃至27の何れか1つに記載の方法。29.偽陽性に対応する特徴を切り捨てる工程を含む、実施形態1乃至27の何れか1つに記載の方法。30.方法であって、該方法は、リードペア配列情報を配列スキャホールド上へマッピングする工程;およびそのようにマッピングされた複数のリード・ペア・シンボルの密度の局所的変異を識別する工程、を含む方法。31.密度の局所的変異を、対応する構造配置特徴に割り当てる工程を含む、実施形態1乃至30の何れか1つに記載の方法。32.密度の局所的変異が減少するように配列スキャホールドを再構成する工程を含む、実施形態1乃至30の何れか1つに記載の方法。33.リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペアを示すシンボルを位置決めする工程を含み、これにより、配列スキャホールドを表す軸からのシンボルの距離が、配列スキャホールド上のリードペアの第1のリードのマッピング位置から、配列スキャホールド上のリードペアの第2のリードのマッピング位置までの距離を示し、かつ、配列スキャホールドを表す軸に対するシンボルの位置は、リードペアの第1のリードペアのマッピング位置と、リードペアの第2のリードのマッピング位置との平均を示す、実施形態1乃至30の何れか1つに記載の方法。34.配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む、実施形態1乃至31の何れか1つに記載の方法。35.配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグを再配向する工程を含む、実施形態1乃至31の何れか1つに記載の方法。36.配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグへ区切りを導入する工程を含む、実施形態1乃至31の何れか1つに記載の方法。37.区切りの一端に存在する配列を区切りの他端に導入する工程を含む、実施形態1乃至36の何れか1つに記載の方法。38.配列スキャホールドを再構成する工程は、第1のコンティグの部分を第2のコンティグの内部領域へと転座させる工程を含む、実施形態1乃至30の何れか1つに記載の方法。39.リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペア情報を複数のビンに割り当てる工程を含む、実施形態1乃至30の何れか1つに記載の方法。40.密度の局所的変異を識別する工程は、シンボルの密度が局所的に低い領域を識別する工程を含む、実施形態1乃至30の何れか1つに記載の方法。41.密度の局所的変異を識別する工程は、シンボルの密度が局所的に高い領域を識別する工程を含む、実施形態1乃至30の何れか1つに記載の方法。42.密度の局所的変異を識別する工程は、第1の位置の密度、および第2の位置の密度を識別する工程を含み、第1の位置の密度および第2の位置の密度は、大きく異なっている、実施形態1乃至30の何れか1つに記載の方法。43.第1の位置および第2の位置は隣接している、実施形態1乃至42の何れか1つに記載の方法。44.第1の位置および第2の位置は、配列スキャホールドから等距離にある、実施形態1乃至42の何れか1つに記載の方法。45.密度の局所的変異を識別する工程は、第1の位置の予測密度、および第1の位置の観察密度を得る工程を含む、実施形態1乃至30の何れか1つに記載の方法。46.第1の位置の予測密度は、配列スキャホールドを表す軸からの距離の増加に応じて単調的に減少する密度勾配により予測された密度である、実施形態1乃至45の何れか1つに記載の方法。47.サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す、実施形態1乃至30の何れか1つに記載の方法。48.スキャホールドは癌細胞ゲノムを表す、実施形態1乃至30の何れか1つに記載の方法。49.スキャホールドはトランスジェニック細胞ゲノムを表す、実施形態1乃至30の何れか1つに記載の方法。50.スキャホールドは遺伝子編集されたゲノムを表す、実施形態1乃至30の何れか1つに記載の方法。51.スキャホールドは、再構成後に少なくとも20%を超えるN50を有する、実施形態1乃至32の何れか1つに記載の方法。52.方法であって、該方法は、配列スキャホールド情報を含むスキャホールドを得る工程;ペアリード情報を得る工程;少なくとも一部のリードペア情報を表すことで、スキャホールドに対するリードペアの各リードの位置を示し、かつスキャホールドにマッピングされるようなリード間の距離を示すように、ペアリード情報を展開する工程;および展開時のペアリード情報の密度の局所的変異を識別する工程を含む、方法。53.密度の局所的変異を、対応する構造配置特徴に割り当てる工程を含む、実施形態1乃至52の何れか1つに記載の方法。54.局所的変異を減少させるようにスキャホールドを再構成する工程を含む、実施形態1乃至52の何れか1つに記載の方法。55.配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを配列決定する工程を含む、実施形態1乃至52の何れか1つに記載の方法。56.配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを表すデジタル情報を受信する工程を含む、実施形態1乃至52の何れか1つに記載の方法。57.展開されたリードペア情報に対して予測された密度分布を得る工程を含む、実施形態1乃至52の何れか1つに記載の方法。58.識別する工程は、予測された密度分布と、表されたリードペア情報密度との有意差を識別する工程を含む、実施形態1乃至57の何れか1つに記載の方法。59.局所的変異を識別する工程は、密度ピークが直角の頂点にある密度摂動を識別する工程を含む、実施形態1乃至52の何れか1つに記載の方法。60.直角の頂点はスキャホールドを表す軸を指す、実施形態1乃至59の何れか1つに記載の方法。61.ペアエンドリード情報を得る工程は、未抽出の核酸を架橋する工程を含む、実施形態1乃至52の何れか1つに記載の方法。62.ペアエンドリード情報を得る工程は、クロマチンにおいて結合された核酸を架橋する工程を含む、実施形態1乃至52の何れ
か1つに記載の方法。63.クロマチンはネイティブクロマチンである、実施形態1乃至62の何れか1つに記載の方法。64.ペアエンドリード情報を得る工程は、核酸を核酸結合部分に結合させる工程を含む、実施形態1乃至52の何れか1つに記載の方法。65.ペアエンドリード情報を得る工程は、再構成されたクロマチンを生成する工程を含む、実施形態1乃至52の何れか1つに記載の方法。66.ペアリード情報を展開する工程は、リードペア情報を複数のビンに割り当てる工程を含む、実施形態1乃至52の何れか1つに記載の方法。67.配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む、実施形態1乃至52の何れか1つに記載の方法。68.配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグを再配向する工程を含む、実施形態1乃至54の何れか1つに記載の方法。69.配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグへ区切りを導入する工程を含む、実施形態1乃至54の何れか1つに記載の方法。70.区切りの一端にする配列を区切りの他端に導入する工程を含む、実施形態1乃至69の何れか1つに記載の方法。71.配列スキャホールドを再構成する工程は、第1のコンティグの部分を第2のコンティグの内部領域へと転座させる工程を含む、実施形態1乃至54の何れか1つに記載の方法。72.スキャホールドは癌細胞ゲノムを表す、実施形態1乃至52の何れか1つに記載の方法。73.スキャホールドはトランスジェニック細胞ゲノムを表す、実施形態1乃至52の何れか1つに記載の方法。74.スキャホールドは遺伝子編集されたゲノムを表す、実施形態1乃至52の何れか1つに記載の方法。75.スキャホールドは、再構成後に少なくとも20%を超えるN50を有する、実施形態1乃至52の何れか1つに記載の方法。76.サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す、実施形態1乃至52の何れか1つに記載の方法。77.配列スキャホールドに対する、サンプル中の構造再配置を識別する方法であって、該方法は、リードペア配列情報を配列スキャホールド上にマッピングする工程;配列スキャホールドに対応するとともに直角縁部を二分する線に沿って左右対称である軸を指す直角縁部を持つ、局所的密度変異を識別する工程;および局所的密度変異のマッピングされたリードが最も遠くにある限り、転座ポイントからの長さの部分を含む配列スキャホールドに対して単純な転座を有するものとして、サンプルを分類する工程を含む、方法。78.サンプル中の構造再配置を識別する方法であって、該方法は、リードペア情報を配列スキャホールド上にマッピングする工程;配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程;直角縁部を二分する線に沿って左右対称に分裂する局所的密度変異のサブ領域を識別する工程;および対称性を修復するリードペアの集団がマッピングされる配列を欠く部分を含む配列スキャホールドに対して転座を有すると、サンプルを分類する工程を含む、方法。79.配列スキャホールドに対する、サンプル中の構造再配置を識別する方法であって、該方法は、リードペア配列情報を配列スキャホールド上にマッピングする工程;配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程;予想されるリードペア密度分布曲線を得る工程;局所的密度変異を含むリードペアがマッピングされるスキャホールド部分を識別する工程;局所的密度変異を含むリードペアが、局所的密度変異の密度を持つと予測されたリードペア密度分布曲線により示される領域にマッピングされるように、スキャホールド部分を再び位置決めする工程を含む、方法。80.実施形態1乃至79の何れか1つに記載の方法の結果を表示するよう構成される、コンピューターモニター。81.実施形態1乃至79の何れか1つに記載の方法の計算工程を実行するよう構成される、コンピューターシステム。82.実施形態1乃至79の何れか1つに記載のマッピングされたリードペアデータの視覚表示。83.核酸構造変異検出の方法であって、該方法は、リードペア情報を、予測された核酸スキャホールド上にマッピングする工程;構造変異仮定を得る工程;構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程;および仮定に対する尤度パラメーターが、第2の仮定に対する第2の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つものと分類する工程を含み、リードペア情報を予測された核酸スキャホールド上にマッピングする工程は、リードペアをリードペア位置に割り当てる工程を含み、これにより、リードペアは、1つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、および、リードペアは、第2の軸上のリードペア分離に対応する値に割り当てられる、方法。84.前記リードペアは、核酸分子の第1の領域にマッピングされる第1の部分、および核酸分子の第2の領域にマッピングされる第2の部分を含み、第1の部分および第2の部分は、隣接しておらず、共通のフェーズを共有する、実施形態1乃至83の何れか1つに記載の方法。85.リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にある場合、リードペア位置は第1のビンに割り当てられる、実施形態1乃至83の何れか1つに記載の方法。86.第1のビン核酸位置の範囲は、予測された核酸スキャホールドの規則的な間隔である、実施形態1乃至85の何れか1つに記載の方法。87.第1のビン分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である、実施形態1乃至85の何れか1つに記載の方法。88.第1のビンの核酸範囲は核酸スキャホールドの規則的な間隔であり、第1のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である、実施形態1乃至85の何れか1つに記載の方法。89.リードペアの中点が第2のビン核酸位置範囲内にあり、かつリードペア分離が第2のビン分離範囲内にある場合、リードペア位置は第2のビンに割り当てられる、実施形態85乃至88の何れか1つに記載の方法。90.ほぼすべてのリード情報がビニングされる、実施形態1乃至89の何れか1つに記載の方法。91.尤度パラメーターを算出する工程は、第1のビンに対する尤度貢献を判定する工程を含む、実施形態85乃至90の何れか1つに記載の方法。92.第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含む、実施形態1乃至91の何れか1つに記載の方法。93.第1のビンに対する尤度貢献は、第1のビンの区域に比例する第2の尤度因子を含む、実施形態1乃至91の何れか1つに記載の方法。94.第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含み、第1のビンに対する尤度貢献は、第1のビンの領域に比例する第2の尤度因子を含む、実施形態1乃至83の何れか1つに記載の方法。95.領域が第1のビンと重複していない第2のビンに対する尤度貢献を決定する工程を含む、実施形態1乃至94の何れか1つに記載の方法。96.尤度パラメーターは、第1のビンの尤度貢献および第2のビンの尤度貢献を含む、実施形態1乃至95の何れか1つに記載の方法。97.尤度パラメーターは、第3のビンの尤度貢献を含む、実施形態1乃至96の何れか1つに記載の方法。98.尤度パラメーターは、ビニングされたほぼすべてのリードペア情報に対する尤度貢献を含む、実施形態1乃至97の何れか1つに記載の方法。99.仮定は、左の縁と長さを有する構造変異を含む、実施形態78乃至98の何れか1つに記載の方法。100.構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも1つである配向を有する、実施形態1乃至99の何れか1つに記載の方法。101.第2の仮定は、左の縁、長さ、および構造配向のうち少なくとも1つにおいて異なる構造変異を含む、実施形態99乃至100の何れか1つに記載の方法。102.前記核酸構造変異は、前記核酸サンプル中のホモ結合である、実施形態1乃至101の何れか1つに記載の方法。103.前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である、実施形態78乃至101の何れか1つに記載の方法。104.核酸サンプル中の推定上の構造変異を視覚化する方法であって。該方法は、配列リードの集団を番号付きのビンの集団に割り当てる工程、および前記ビンの集団の第1のビン内にある構造変異縁部を含むリードの尤度パラメーターを割り当てる工程を含み、前記第1のビンに対する前記尤度パラメーターは、第1のビンにマッピングされるリードの数を含む第1の尤度成分、および第1のビンの区域を含む第2の成分を含む、方法。105.ビンの数に応じて構造変異の尤度をプロットする工程を含む、実施形態1乃至104の何れか1つに記載の方法。106.前記第1のビンに対する前記尤度パラメーターは、第1のビンにマッピングされる多数のリードを含む第1の尤度成分、および第1のビンの区域を含む第2の成分を含む、実施形態1乃至104の何れか1つに記載の方法。107.前記尤度パラメーターは、第1のビンにマッピングされるリードの数に構造変異予測を関連づける尤度成分、および第1のビンの領域を含む尤度成分を含む、実施形態1乃至106の何れか1つに記載の方法。108.前記ビンの集団は、固定された核酸距離にわたる共通のビン幅を共有する、実施形態1乃至104の何れか1つに記載の方法。109.前記ビンの集団は、その員の中のビン高さに応じて変動する、実施形態1乃至104の何れか1つに記載の方法。110.ビン高さは、対数軸上でプロットされたときに一定に見える、実施形態1乃至109の何れか1つに記載の方法。111.尤度パラメーターは、配列リードの確率に関連し、これには左の縁および長さを持つ構造変異の結合、および前記第1のビンへのマッピングが含まれる、実施形態1乃至104の何れか1つに記載の方法。112.構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも1つである配向を有する、実施形態1乃至111の何れか1つに記載の方法。113.前記配列リードはリードペアを含む、実施形態1乃至104の何れか1つに記載の方法。114.リードペアは、核酸分子の第1の領域にマッピングされる第1の部分、および核酸分子の第2の領域にマッピングされる第2の部分を含み、第1の部分および第2の部分は、隣接しておらず、共通のフェーズを共有する、実施形態1乃至113の何れか1つに記載の方法。115.核酸サンプル中の構造を識別する方法であって、該方法は、核酸サンプルに対してマッピングされたリードペアデータを得る工程;核酸スキャホールド配列を得る工程;リードペアデータを核酸スキャホールド配列と比較する複数の構造変異仮定の各々に関する、尤度確率情報を得る工程;および構造変異種仮定中の大半の起こり得る仮定を識別する工程を含み;ここで、前記方法は、1分あたり少なくとも10mbの核酸スキャホールド配列を評価する、方法。116.リードペア情報を核酸スキャホールド配列上にマッピングする工程;構造変異仮定を得る工程;構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程;および仮定に対する尤度パラメーターが第2の仮定に対する第2の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つと分類する工程を含む、実施形態1乃至115の何れか1つに記載の方法。117.リードペア情報を核酸スキャホールド配列上にマッピングする工程は、リードペアが1つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、かつリードペアが第2の軸上のリードペア分離に対応する値に割り当てられるように、リードペアをリードペア位置に割り当てる工程を含む、実施形態1乃至116の何れか1つ
に記載の方法。118.前記リードペアは、核酸分子の第1の領域にマッピングされる第1の部分、および核酸分子の第2の領域にマッピングされる第2の部分を含み、第1の部分および第2の部分は、隣接しておらず、共通のフェーズを共有する、実施形態116乃至112の何れか1つに記載の方法。119.リードペアの中点が第1のビン核酸位置範囲内にあり、かつリードペア分離が第1のビン分離範囲内にある場合、リードペア位置は第1のビンに割り当てられる、実施形態1乃至117の何れか1つに記載の方法。120.第1のビン核酸位置の範囲は、核酸スキャホールドの規則的な間隔である、実施形態1乃至119の何れか1つに記載の方法。121.第1のビン分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である、実施形態1乃至119の何れか1つに記載の方法。122.第1のビンの核酸位置範囲は核酸スキャホールドの規則的な間隔であり、第1のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である、実施形態1乃至119の何れか1つに記載の方法。123.リードペアの中点が第2のビン核酸位置範囲内にあり、かつリードペア分離が第2のビン分離範囲内にある場合、リードペア位置は第2のビンに割り当てられる、実施形態119乃至122の何れか1つに記載の方法。124.ほぼすべてのリード情報がビニングされる、実施形態1乃至123の何れか1つに記載の方法。125.尤度パラメーターを算出する工程は、第1のビンに対する尤度貢献を判定する工程を含む、実施形態119乃至119の何れか1つに記載の方法。126.第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含む、実施形態1乃至125の何れか1つに記載の方法。127.第1のビンに対する尤度貢献は、第1のビンの区域に比例する第2の尤度因子を含む、実施形態1乃至120の何れか1つに記載の方法。128.第1のビンに対する尤度貢献は、第1のビンにマッピングされるリードペアの数に比例する第1の尤度因子を含み、第1のビンに対する尤度貢献は、第1のビンの領域に比例する第2の尤度因子を含む、実施形態1乃至120の何れか1つに記載の方法。129.領域が第1のビンと重複していない第2のビンに対する尤度貢献を決定する工程を含む、実施形態1乃至123の何れか1つに記載の方法。130.尤度パラメーターは、第1のビンの尤度貢献および第2のビンの尤度貢献を含む、実施形態1乃至124の何れか1つに記載の方法。131.尤度パラメーターは、第3のビンの尤度貢献を含む、実施形態1乃至130の何れか1つに記載の方法。132.尤度パラメーターは、ビニングされたほぼすべてのリードペア情報に対する尤度貢献を含む、実施形態1乃至126の何れか1つに記載の方法。133.仮定は、左の縁と長さを有する構造変異を含む、実施形態115乃至127の何れか1つに記載の方法。134.構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも1つである配向を有する、実施形態1乃至128の何れか1つに記載の方法。135.第2の仮定は、左の縁、長さ、および構造配向のうち少なくとも1つにおいて異なる構造変異を含む、実施形態134乃至129の何れか1つに記載の方法。136.前記核酸構造変異は、前記核酸サンプル中のホモ結合である、実施形態111乃至130の何れか1つに記載の方法。137.前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である、実施形態111乃至130の何れか1つに記載の方法。138.処置レジメンを選択する方法であって、該方法は、前述の実施形態の何れか1つの方法を実行する工程、再編成を識別する工程、および再編成と一致する処置レジメンを識別する工程を含む、方法。139.処置レジメンは薬物投与を含む、実施形態1乃至133の何れか1つに記載の方法。140.処置レジメンは組織切除を含む、実施形態1乃至133の何れか1つに記載の方法。141.処置レジメンを評価する方法であって、該方法は、最初に前述の実施形態の何れか1つの方法を実行する工程、処置レジメンを施す工程、および2回目の処置レジメンを実行する工程を含む、方法。142.処置レジメンを中止する工程を含む、実施形態1乃至136の何れか1つに記載の方法。143.処置レジメンの用量を増大させる工程を含む、実施形態1乃至136の何れか1つに記載の方法。144.処置レジメンの用量を減少させる工程を含む、実施形態1乃至136の何れか1つに記載の方法。145.処置レジメンを継続させる工程を含む、実施形態1乃至136の何れか1つに記載の方法。146.処置レジメンは薬物を含む、実施形態136乃至140の何れか1つに記載の方法。147.処置レジメンは外科的介入を含む、実施形態136乃至140の何れか1つに記載の方法。

添付図面の説明
図1では、ペアエンドリードデータの処理に使用される方法に関する8工程の典型的なワークフローを確認できる。典型的な工程は、リードマッピング(基準に対して1つの個体からペア配列リードをマッピング)、リードビニング(1つ以上の特性による群のリード)、コピー数推定(コピー数変異、CNV)、標準化、デノボ特徴検出、区切り点の洗練、候補スコアリング、および報告を含む。いくつかの例において、工程は、ペアエンドリードデータの分析中、全体的に反復され、または飛ばされる。
図2A-2Cではプロットのペアを確認でき、各プロットでは、ビンはx軸上のマッピングされたリードペアの中点位置の範囲に対応し、スケールは20,000bpの増加量において0~12000であり、対数目盛としてY軸上の評価されたコピー数は0.1~10である。図2Aの基準サンプルCT407(上部)、図2BのCT418(上部)、および図2CのCT416に関して、塩基の大半は単一のコピーとして提示され、垂直軸の中心にある高いプロット密度の区域により表される。サンプル、図2Aの下部プロットCT410および図2BのCT417により表されるサンプルは、1からの有意な偏差を示し、ビンには1より多く、または1未満のコピー数がある。例えば、サンプルCT410では、およそ10,000~10,500の塩基におけるビンのコピー数が増加している。図2Dは、X軸上のサンプルCT410およびY軸上のCT407のコピー数を伴う二次元散布図を示し、各点は、各サンプル中の対応するビンのコピー数を表す。点の大部分は、両サンプル中のビンにおける単一のコピーに相当するy=x対角線上の座標(1,1)に集中する。対角線付近にない点は、2つのサンプル間のコピー数の有意差を表す。例えば、(100,10)に相当する点は、CT410のコピー数においてCT407の10倍の増加を伴うビンを表す。
図3Aでは、x軸上のマッピングされたリードペアの中点位置のプロットが確認でき、5.36×10~5.31×10の塩基対のスケールは0.01×10の増加量にあり、リードペア分離は、サンプルNA12878の染色体7に対して0~200,000の塩基(20,000の塩基増加量)のスケールでy軸上にプロットされる。このプロットは、y軸上で0付近にある点の大半により明示されるように、明確な構造変異を示さない。これは、リードペアの大半がスキャホールド上の隣接部分に相当することを示唆する。図3Bと図3Cでは、5.41×10~5.46×10のx軸スケール、および0~200,000(20,000の塩基増加量)と100~100,000(対数スケール)のy軸スケールが示される。これらプロットにおいて、逆位が約5.42×10~5.44×10の塩基の間に存在することを確認でき、データにはギャップがある。図3Dでは、位置aとbとの間に位置する逆位の典型的な描写を確認でき、そこでは、ほぼ半分の点(灰色)が軸付近にあり、もう半分は位置aとbとの間にある中間点上で反映される。この例において、軸付近にある明るい色の点はヘテロ結合逆位を示し、ペア中の1つの染色体だけが逆位される。いくつかの例において、プロットは45度回転され、x軸はy=-xの対角線上にある。
図4Aでは、x軸から45度の角度である線により形成される区域へのマッピングされたリードペアの再分布として明示される、様々な構造変異の例を確認できる。図4Bは、軸から45度の角度である線により形成される密度区域を規定するための記数法を表す。図4C-4Gは、様々な構造変異の密度の区域を規定する典型的な方法を表す。いくつかの例において、密度の区域は、カーネルであるパターンを作成する。規定されたパターンを多様に使用して、マッピングされたリードペアデータとスキャホールドとの相違を示す密度変異を予測する。例えば、図4C、図4D、図4E、図4F、および図4Gは、場合によっては、欠失、逆位、直接縦列重複、逆位タンデム重複(右)、または逆位タンデム重複(左)それぞれについて予想される局所的密度変化の区域を規定する。領域0-3の各々の密度の予想変異を規定するための典型的な式は、それぞれの図の左側に示される。
図5Aでは、スケールが10,000の間隔で0~80,000である200のリードペアビンの数のx軸、および、50の間隔で-250~150の間であるスケール上に対数尤度比率(LLR)を表すy軸を含む、予測された構造変異のプロットが確認できる。対数尤度比率は、いくつかの例において、構造変異が生じなかった尤度に対する、構造変異が生じた尤度を表す。より高い値は、より発生する可能性が高い変異、例えば、既知の逆位に相当する約36000のビンに見られるスパイクを示す。図5Bでは、スケールが10,000の間隔で0~80,000である200のリードペアビンの数のx軸、および、20の間隔で-120~40の間であるスケール上に対数尤度比率(LLR)を表すy軸を含む、予測された構造変異のプロットが確認できる。この例では、ビンが55000~68000である比較的負の値は、10kbのヘテロ結合欠失が存在することを示す。図5Cでは、スケールが10,000の間隔で0~80,000である200のリードペアビンの数のx軸、および、20の間隔で-100~60の間であるスケール上に対数尤度比率(LLR)を表すy軸を含む、予測された構造変異のプロットが確認できる。この例では、ビンが55000~68000である比較的負の値は、26kbのヘテロ結合重複(L)が存在することを示す。
図6Aと図6Bでは、場合によっては相互転座を表す典型的なリード分布パターンを確認でき、この場合、4つの領域へと分割される正方形である。いくつかの例において、このパターンはカーネルまたは特徴である。リード密度はこの場合、2つの線の交点により形成された対角線の区域に分布される。図6Cでは、フォアグラウンド(fg)およびバックグラウンド(bg)の領域として表される区域を確認でき、これは、いくつかの例においてzスコアを確立するためにfgとbgとの比率と比較される。zスコアは多くの場合、ノイズから特徴を識別するために使用される。図6Dでは、スキャホールド上でマッピングされたリードペアデータのプロットを確認でき、特徴が識別されている(円で囲んだ部分)。場合によっては、高いまたは低いリード密度の区域は、正方形の中心にわたる密度の反映を示す左下側の特徴と比較して、正方形の中心(右上の円で囲んだ部分)にわたり反映されない。この例では、リードペア密度は、正方形の中心から45度離れた角度勾配にて減少し、最高密度が見出される。場合によっては、左下側の円で囲まれた2つの特徴により例証された「蝶ネクタイ」構造は、転座に相当する。
図7では、スキャホールド上にマッピングされたリードペアの画像を確認でき、対角線y=-x軸を離れた以外にも高いまたは低いリード密度の区域により視覚化されるような染色体内再編成が示されている。対角線軸から離れて位置するこれら区域は、リードより長い距離だけ離れているマッピングされたリードペアに相当し、スキャホールドのアセンブリにおける起こり得る誤差を示す。
図8Aでは、「第2度結合」アセンブリ状態の例を確認でき、2つの異なるアセンブリの結果は、一次リードペアのみの分析から可能である。矢印の上の各セットにおける3つの配列は、本来の配列構成(スキャホールド)に相当する:配列a-b、c-d-e、およびf-g。しかし、配列中の断片の再編成(矢印により表される)は、2つの起こり得る再編成をもたらす:a-d-eおよびc-d-g、またはa-d-g。これらは一次リードペア分析を通じて区別できず、なぜなら両方の起こり得る再編成は、リードペアマッピング断片a~d、およびd~gを有する再編成配列をもたらすからである。図8Bでは、スキャホールドにマッピングされたリードペアデータを示す例示を確認でき、軸上のデータは示されない。2つの特徴が識別される(陰影のあるボックスはリードペア密度を表し、強度は、互いに接触する小さな円と大きな円のシンボルで標識される、ボックス内の直角に対角線軸から離れて伸長する勾配に沿って減少する)。アルファベット順で断片a-gの線形編成がスキャホールドとして使用される。2つの「軸外」特徴からのリードペアデータは、断片a-dとd-gとの接続を示す。加えて、同心円によりマーキングされたシグナルの欠如は、断片a-gが介在配列dにより接続されないことを示す。図8Cでは、a-d-g結合に対して予想されたパターンを表す同様のグラフを確認できる。a-dとd-gの接続性は、小さいおよび大きな円のシンボルにて識別された特徴により例示される。断片aとgは直接接続されないが、陰影のある領域は、介在配列dを架橋するリードペアに対応すると観察され、a-fおよびc-gに対応する特徴は存在せず(同心円)、a-d-g接続性の仮定がさらに支持される。図8Dでは、a-d-g結合に対して予想されたパターンを表す同様のグラフを確認でき、主な特徴は陰影のあるボックスにおいて目視可能である。いくつかの例において、a-gに対応する「架橋」特徴は、断片aとgとの偽陽性融合要求を示す。他の場合、d-gでの特徴は偽陽性融合要求を示し、追加の断片はd-gにおいて断片dの左側に存在しない。図8Eでは、混合物中のリードペアの存在量(g)および間隙サイズ/距離(γ)が、密度(外側線)における予想される変化をどのように予測するのかを示す、プロットを確認できる。例えば、リードペアの間の距離(g)が短く、存在量が少ないと、左のプロットは、(外側線の中間からの)リード密度における急速な減少を表す。右のプロットは、リードペアの間の距離(g)が長く、存在量が多いときの(外側線の中間からの)リード密度における急速な減少を表す。いくつかの例において、リード密度が減少する速度を使用して、配列断片間の遮断縁を予測する。例えば、1つのカーネルに隣接するリード密度における急激で迅速な減少は、隣接したカーネルの欠如を示す。区域に対して予想されるリード密度の比較は、偽陽性カーネル要求の最小化のために使用される。多くの場合、推定上のカーネルは、(わずか1つの追加の断片に接続される)末端断片に対して予想されるよりも大きいリード密度を持ち、末端断片はそのようなものとして識別されない。代替的に、推定上のカーネルは、融合事象に対して予想されるよりも小さいリード密度を持ち、融合事象はそのようなものとして識別されない。特定の場合、密度の急速な減少は、密度の段階的な変化と対比するために「工程」と呼ばれる。予想された密度も、対称性などの幾何学的な考慮事項により規定または記載され得る。例えば、リード密度の対称的な変化は、スキャホールドモデルから単離された誤差を示し、リード密度の非対称的な変化は随意に、追加の隣接する誤差の存在を示す。
図9では、スキャホールド上にマッピングされた2つの遺伝子のリードペアの画像を確認でき、対角線y=-x軸を離れた以外にも高いまたは低いリード密度の区域により視覚化されるような構造変異が示されている。右上と左下のボックス区域中の蝶ネクタイ形状の密度分布は、遺伝子ETV6とNTRK3との相互転座を示す。
図10A-10Cでは、3つの異なるサンプルにおいて比較された同じペアの染色体での画像分析に基づく結果を確認できる。円で囲んだ領域は、構造変異を表す識別された特徴に相当する。
図11A-11Cでは、染色体1対染色体7(図11A)、染色体2対染色体5(図11B)、および染色体1対染色体1(図11C)に関する中間の標準化リード密度(10を超えるサンプル)を表す画像を確認できる。
図12Aと図12Bでは、マッピングされたリードペアデータのための様々なビン取り扱い手法を表す画像を確認でき、これによりリードペアを群に配する。図12Aは等しいビンのサイズを示し、図12Bはビンの補間を示す。
図13に、全ゲノムスキャン分析のパイプラインを表す画像を確認でき、識別された特徴は構造変異に相当する。分析パイプラインにより行われたサンプル要求は、白色の円で囲まれて示される。図13は、250kのビンを用いる、染色体3対染色体6のプロットを示す。
図14Aでは、本開示の技術により分析される保存サンプル(例えばFFPEサンプル)に対する塩基対(bp)中の挿入距離に応じた特定の範囲での挿入物の確率のグラフを確認できる。図14Bでは、Chicago法を使用して分析されたサンプルに関する同様のグラフを確認できる。両グラフにおいて、X軸は0~300,000の挿入距離(bp)を示し(50,000bpの増加量における)、一方でY軸は、軸の上部で10~軸の下部で10-8の距離の挿入の確率を示す(対数)。
図15Aと図15Bでは、再びアセンブルされたクロマチンのDNAの近接ライゲーションから生成されたリードペアの基準配列上のマッピングされた位置、例えばGRCh38が、GM12878と基準との間の構造的な差異の付近でプロットされるグラフを、確認できる。図15Aにおいて、x軸は、0.05mbの増加量において54.2~54.55のスケールでのリード位置1(Mb)である。y軸は、0.05mbの増加量において54.15~54.55のスケールでのリード位置2(Mb)である。図15Bにおいて、x軸は、0.05mbの増加量において78.85~79.15のスケールでのリード位置1(Mb)である。y軸は、0.05mbの増加量において78.8~79.2のスケールでのリード位置2(Mb)である。生成された各リードペアは、対角線より上および下に表される。対角線より上では、陰は、示されたスケールでのマップ品質スコアを示し;対角線より下では、陰は、フェージングされたSNPとの重なりに基づいて生成されたリードペアの推量されたハプロタイプフェーズを示す。いくつかの実施形態において、生成されたプロットは、図15Bに例示されるように、隣接する反復領域を伴う逆位を表す。いくつかの実施形態において、生成されたプロットは、図15Bに例示されるように、フェージングされたヘテロ結合欠失に関するデータを表す。基準に対する1つの個体からのペア配列リードのマッピングは、逆位、欠失、および重複のような隣接する核酸またはゲノム構造における差異を識別するための、最も一般的に使用される配列ベースの方法である(Tuzun et al., 2005)。図15Aと図15Bは、ヒト基準ゲノムGRCh38にマッピングされたGM12878から再びアセンブルされたクロマチンのDNAの近接ライゲーションにより生成されたリードペアが、どのようにそのような2つの構造的な差異を明らかにするのかを示す。
図16A-16Cでは、マッピングされたリードペアデータと基準スキャホールドとの間の典型的な配列決定誤差(右)、およびこれらの事象を表す画像(左)の具体例を確認できる。例えば、図16Aにおいて、変位された部分誤差を確認でき、スキャホールド位置は、1つの軸上の多数の位置にマッピングされる(薄く水平または垂直な線の何れかとして)。プロットより上の垂線は、変位された部分の場所を示し、矢印はスキャホールド中のこの垂直帯域の正確な配置を示す。随意に、モデルは、変位された部分に相当する断片の位置をスキャホールド中の正確な場所に変えることによって更新される。図16Bでは、断片AとA’が非常に類似し、かつ共にマッピングされるが、断片BとB’が大きく異なり(右、上部)、結果として断片をA-B-B’(右、下)として不正確に順序付けるスキャホールドを生成する、崩壊断片の事例を確認できる。この誤差は、マッピングされたリードペアにより生成される画像の予期しない低リード密度の非対角区域から(左、B’より上の区域)、および、代替的に、または組み合わせにおいて、断片Aの軸付近の予想されたリード密度より高いものにより(B/B’に対して2つのコピーを示す)、識別される。断片BとB’が、示唆された(隣接する)スキャホールドとして順序付けられる場合、A-B断片間で見られるように、この隣接に対応する対角線軸付近のリード密度が予想される。加えて、予想よりも高い密度がA-B’に対応する区域において観察され、BとB’が独立してAに隣接するが互いには隣接していないことが、さらに示される。随意に、モデルは、B’を異なる染色体に動かし、その染色体上でAを重複し、コピー数を更新することにより、較正される。図16Cでは、崩壊した反復および誤った結合の事例を確認でき、ここで、2つの断片AとYはそれぞれ、非常に類似した配列B/Xに隣接するが、AとYは異なる染色体に存在する。生成されたスキャホールドは、断片をA-(B/X)-Yとして不正確に配置し、B/Xは崩壊し、A-Yは不適当に結合される。この誤差は、画像(左)におけるマッピングされたリードペアデータから識別され、ここで、予想外に低いリード密度の区域は対角線軸の両側に見られるが、低密度の追加の線は、対角線軸からの45度の角度で特徴から外側に伸長する。代替的に、または組み合わせにおいて、この誤差はまた、AまたはYに対するB/Xの2つのコピーに対応する、軸付近の予想よりも高いリード密度の区域によって識別される。随意に、モデルは、B/XとYの接続を壊すこと、B/Xを重複させること、およびそれをYに付けることにより較正される。
図17Aでは、マッピングされたリードペアデータの品質を改善する(モデル最適化)ための典型的なワークフローを確認でき、生の結合密度データを得る工程、接触電位スコアを生成する工程、側部グラフ編集を行う工程、距離の場を生成する工程、および現在の側部グラフに対して接触電位を更新する工程が含まれる。場合によっては、このプロセスは、ゲノムの対話式に更新されたグラフに基づくモデルをもたらす。いくつかの例において、このプロセスは、特徴識別のためのマッピングされたリードペアデータの品質を改善するために反復される。図17Bでは、ジャガイモ染色体に対するモデル最適化前に、スキャホールド上にマッピングされた生の密度リードペアデータの画像を確認できる。図17Cでは、ジャガイモ染色体に対するモデル最適化後に、スキャホールド上にマッピングされたリードペアデータの画像を確認できる。結果として得られる画像は、場合によっては、局所的な高密度と低密度の軸外区域がさらに小さくなり、リードペアデータへのスキャホールドモデルの適合が優れていることを示す。
図18A-18Dでは、本明細書に記載される方法の実施のためのコンピューターシステムまたはネットワークの例を確認できる。例えば、図18Aは、本明細書で提供される方法を実施するようにプログラムまたは構成される典型的なコンピューターシステムを示す。例えば、図18Bでは、本発明の実施形態の例と共に使用可能なコンピューターシステムの例を確認できる。図18Cでは、本発明の実施形態の例と共に使用可能なコンピューターシステム(700)の第1の例のアーキテクチャを示すブロック図を確認できる。図18Dでは、本発明の実施形態の例と共に使用可能な、複数のコンピューターシステム、複数の携帯電話および個人用携帯情報端末、およびネットワーク接続ストレージ(NAS)を組み込むように構成されたネットワーク(2100)を実証するダイヤグラムを確認できる。図18Eでは、本発明の実施形態の例と共に使用可能な共有仮想アドレスメモリ空間を使用するマルチプロセッサー・コンピューター・システム(900)のブロック図を確認できる。いくつかの例において、コンピューターシステムとネットワークは、ユーザーによる管理を必要とすることなく、本明細書に記載される方法を実行する。
定義
本明細書や添付の請求項で使用されるように、単数形「a」、「an」、及び「the」は、文脈で特段の定めのない限り、複数の指示対象を含んでいる。したがって、例えば、「コンティグ」に対する言及は、複数のコンティグを含み、「染色体の物理的な配置を探索する」に対する言及は、当業者に既知の染色体とその同等物の物理的な配置を探索する1つ以上の方法に対する言及などを含む。
また、「および」の使用は、特に明記しない限り、「および/または」を意味する。同様に、「含む(comprise)」、「含む(comprises)」、「含んでいる(comprising)」、「含む(include)」、「含む(includes)」、および「含んでいる(including)」は交換可能であり、限定的なものとして意図されていない。
様々な実施形態の記載が用語「含んでいる」の使用を含む場合、当業者は、いくつかの特定の例において、「~から本質的になる」または「~からなる」との表現を用いて実施形態を二者択一的に記載できることを、理解する。
用語「配列決定リード」は、本明細書で使用されるように、中で配列が決定されたDNAの断片を指す。
本明細書で使用されるような用語「コンティグ」は、DNA配列の隣接する領域を指す。「コンティグ」は、当該技術分野で既知の任意数の方法、例えば、配列を重複させるために配列決定リードを比較すること、および/または、どの配列決定リードが隣接する可能性が高いかを識別するために既知の配列のデータベースに対して配列決定リードを比較することにより判定され得る。
本明細書で使用されるような用語「被験体」は、任意の真核生物または原核生物を指す場合がある。
本明細書で使用されるような用語「ネイキッドDNA」は、複合体化したタンパクを実質的に含まないDNAを指す場合がある。例えば、それは、細胞核に見出される内因性タンパク質の約50%、約40%、約30%、約20%、約10%、約5%、または約1%未満と複合されたDNAを指す。
用語「再構成クロマチン」は、本明細書で使用されるように、核酸結合部分をネイキッドDNAなどの核酸に複合させることにより形成されたクロマチンを指す場合がある。場合によっては、これら部分は核タンパク質またはヒストンなどの核酸タンパク質であるが、ナノ粒子などの他の部分も企図される。
用語「リードペア(read pair)」または「リードペア(read-pair)」は、本明細書で使用されるように、配列情報を提供するよう結合した2つ以上の元素を指す場合がある。場合によっては、リードペアの数は、マッピング可能なリードペアの数を指す場合がある。他の場合において、リードペアの数は、生成されたsの総数を指す場合がある。
「組織サンプル」は、本明細書で使用されるように、潜在的に核酸を含む個体または核酸を含む環境由来の生体サンプルを指す。例えば、腫瘍は組織として考慮され、腫瘍から得たサンプルは組織サンプルを構成するが、場合によっては、この用語は、異種混合環境、例えば胃または腸の部分から得たサンプル、または、互いに対して空間分布された複数のソース由来の核酸を含む環境サンプルを指す。
「約」は、本明細書で使用されるように数に関して、その数の+/-10%の数を指す。範囲に関して使用されるように、「約」は、示された範囲の下限より10%低い下限、および示された範囲の上限より10%高い上限を有する、範囲を指す。
「プローブ」は、本明細書で使用されるように、標的への結合を介して情報を運ぶ分子を指す。典型的なプローブはオリゴヌクレオチド分子および抗体を含む。オリゴヌクレオチド分子は、標的にアニールし、かつ蛍光特徴を変更することで情報を伝えることにより、または代替的に、標的にアニールし、かつ標的の存在を示すアンプリコンなどの産物の合成を容易にすることにより、プローブとして作用し得る。すなわち、用語「プローブ」は、本明細書で使用されるように、抗体プローブおよび他の小分子プローブのほか、オリゴ核酸分子を多様に考慮し、例えば蛍光状態の変化をもたらす標的へのハイブリダイゼーションを直接介してシグナルを生成することにより作用し、または、標的の存在を示すアンプリコンの合成を容易にすることにより作用する。
本明細書で使用されるように、句「~の少なくとも1つ」は、『A,B,C,D』など連続する言葉が後に続くと、この連続のうち1つの員(AまたはBまたはCまたはD)、連続のうち2つの員、連続のうち3つの員、連続のうちすべての員(A、B、C、およびD)、および場合によっては列挙されていない追加の員も指す。連続のうち「少なくとも1つ」は、その連続の各員を表すものが存在することを必ずしも示唆するわけではない。
本明細書で使用されるように、DNAタンパク質複合体は、タンパク質および核酸が複合体を形成するようにはこれ以上アセンブルされない場合、破壊または分裂される。場合によっては、複合体は、完全に変性され、または分解され、その結果、タンパク質DNA結合は残らない。代替的に、場合によっては、DNAタンパク質複合体は、第1の核酸部分と第2の核酸部分があらゆるリン酸ジエステル結合から独立して共にこれ以上保持されない場合に、実質的に破壊される。
別段の定めのない限り、本明細書で使用される技術的かつ科学的な用語はすべて、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書に記載される方法や試薬と類似するまたは同等である任意の方法や試薬を、開示された方法の実施や組成物に使用できるが、典型的な方法と材料はここに記載される。
以下の例は、本開示を例示することを意図としているが、限定することは意図されていない。実施例は使用され得る例の典型ではあるが、当業者に既知の他の手順が代替的に使用される場合もある。
実施例1
3つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも1つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分aとbを有する第1の染色体、部分cとdとeを有する第2の染色体、および部分fとgを含む第3の染色体を含む。
リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。
部分aとdにマッピングされるリードペアの実質的な過剰表現を表す局所的密度変位が観察される。最終的に、aとdを互いに物理結合させる再編成が生じた。
局所的密度変位をさらに詳しく分析する。観察されるものとして、この局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から直ちに離れたリードペア密度の占有率に一致する。最終的に、部分aとdは、少なくとも1つの再編成事象において隣接する。
局所的密度変異は、その対称性に関して観察される。確認されるものとして、局所的密度変異は、マッピングの分解能のレベルを持つスキャホールド軸に最も近い直角縁を二分する線に沿って、実質的に双方で対称的である。観察されるものとして、転座は、アッセイの分解能のレベルが少なくとも可能な限り長い、aとd両方の部分を含む。最終的に、事象は、aをdに隣接させる単純な転座である。
実施例2
3つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも1つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分aとbを有する第1の染色体、部分cとdとeを有する第2の染色体、および部分fとgを含む第3の染色体を含む。
リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。
部分aとdにマッピングされるリードペアの実質的な過剰表現を表す局所的密度変位が観察される。最終的に、aとdを互いに物理結合させる再編成が生じた。
マップをさらに詳しく調べる。観察されるものとして、aとdは、他のあらゆる実質的に軸外の局所的密度変異に関与しない。最終的に、部分aとdは、1つの再編成事象において隣接する。
実施例3
3つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも1つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分aとbを有する第1の染色体、部分cとdとeを有する第2の染色体、および部分fとgを含む第3の染色体を含む。
リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。
部分aとdにマッピングされるリードペアの実質的な過剰表現を表す局所的密度変位が観察される。最終的に、aとdを互いに物理結合させる再編成が生じた。
マップをさらに詳しく調べる。観察されるものとして、dは、他の実質的に軸外の局所的密度変異に関与しない。部分dは、gにマッピングされるリードペア補体を持つ局所的密度変異に関与すると観察される。最終的に、部分dとgは、それらを物理結合させる再編成事象に関与する。
局所的密度変位をさらに詳しく分析する。観察されるものとして、このdからgへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率に一致する。最終的に、部分dとgは、少なくとも1つの再編成事象において隣接する。
マップをさらに詳しく調べる。観察されるものとして、aは、他の実質的に軸外の局所的密度変異に関与しない。部分aは、gにマッピングされるリードペア補体を持つ局所的密度変異に関与すると観察される。最終的に、部分dとgは、それらを物理結合させる再編成事象に関与する。
局所的密度変位をさらに詳しく分析する。観察されるものとして、このaからgへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率より実質的に低い。最終的に、部分aとgは、少なくとも1つの再編成事象において隣接していない。
a-dとd-gの局所的密度変異をさらに詳しく調べる。観察されるものとして、各々が、軸に最も近い直角縁から引かれた線に沿った左右対称性を欠いている。最終的に、マップの分解能のレベル内にある部分dの転座が生じた。
実施例4
3つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも1つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分aとbを有する第1の染色体、部分cとdとeを有する第2の染色体、および部分fとgを含む第3の染色体を含む。
リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。
部分aとdにマッピングされるリードペアの実質的な過剰表現を表す局所的密度変位が観察される。最終的に、aとdを互いに物理結合させる再編成が生じた。
局所的密度変位をさらに詳しく分析する。観察されるものとして、このaからdへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率のほぼ半分である。最終的に、部分aとdは、少なくとも1つの再編成事象において隣接する。
マップをさらに詳しく調べる。観察されるものとして、dは、他の実質的に軸外の局所的密度変異に関与しない。部分dは、gにマッピングされるリードペア補体を持つ局所的密度変異に関与すると観察される。最終的に、部分dとgは、それらを物理結合させる再編成事象に関与する。
局所的密度変位をさらに詳しく分析する。観察されるものとして、このdからgへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率のほぼ半分である。最終的に、部分dとgは、少なくとも1つの再編成事象において隣接する。
マップをさらに詳しく調べる。観察されるものとして、aは、gにマッピングされるリードペア補体を持つ局所的密度変異に関与しない。最終的に、部分aとgは、それらを物理結合させる再編成事象に関与しない。
a-dとd-gの局所的密度変異をさらに詳しく調べる。観察されるものとして、各々が、軸に最も近い直角縁から引かれた線に沿った左右対称性を示す。最終的に、マップの分解能のレベルより大きい部分dの転座が生じた。
最終的に、aをdに結合させる転座事象は1つの染色体上に生じ、dをgに結合させる別個の転座事象は第2の染色体上に生じた。最終的に、サンプルは各転座事象に対してヘテロ結合性である。
実施例5.カーネルへのリードペア分離の変換
ヒト染色体7(15Mb)からリードペアデータを得て、リードペアを200bpのビンに組織化し、LLR値をビンの各々に対して算出する。既知のヘテロ結合逆位に相当する高いLLR値を得る(図5A)。同じ分析領域において、10kbのヘテロ結合欠失のカーネル、および26kbのヘテロ結合重複(L)カーネルを識別した(それぞれ図5Bおよび図5C)。
実施例6.変位された部分の識別
リードペア情報をサンプルに対して得て、リードペアを基準スキャホールドに対してマッピングする。スキャホールドの部分にマッピングされるリードペアの、起こり得る誤って置かれた部分を表す局所的密度変異は、予想外に高いリード密度の垂直または水平な帯域として観察される(図16A)。予想外に低いリード密度の「穴」の対応する水平または垂直の帯域が識別され、この帯域に対し予想されるリードペア密度は、誤って置かれた部分の密度に匹敵する。穴に対し予想されるリードペア密度は、帯域に対し観察された密度に一致し、最終的に、誤って置かれた部分が穴に相当する。スキャホールドモデルは、誤って置かれた部分を穴と取り替えてモデルを改善することにより調整される。
実施例7.2倍性ゲノム中の崩壊した部分の識別
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドA-B-B’のセクションについて、予想より高い密度の第1の区域が、部分Aの中心軸付近の少なくとも1つの他の領域に比べて、中心軸付近に観察される。場合によっては2つの部分を分割する低密度の正方形または長方形として明示される、予想外に低いリード密度の第2の区域(図16A)も、第2の区域の一角がBとB’との間の中心軸と接触した状態で観察される。第1の区域における「過剰」密度は、第2の区域に観察された密度の欠如に相当する、密度の組み合わせにほぼ比例する。最終的に、第1の区域は、高い類似性により崩壊したAの2倍性配列に相当し、BとB’との間の軸またはその付近の密度の欠如は、不適当な結合個所が生じたことを示す。随意に、スキャホールドは、Aを重複し(コピー数を増大させる)、B-B’を壊すことでA-BまたはA-B’を含む2つの別個の染色体を作成することにより、調整される。
実施例8.2倍性ゲノム中の崩壊した反復および再結合の識別
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドA-B/X-Yのセクションについて、予想より高い密度の第1の区域が、部分Aの中心軸付近の少なくとも1つの他の領域、例えば部分AまたはYに比べて、部分B/Xの中心軸付近に観察される。加えて、場合によっては2つの部分を分割する低密度の正方形または長方形として明示される、予想外に低いリード密度の第2の区域(図16B)も、第2の区域の一角がAとYとの間の中心軸と完全に接触していない状態で観察される。最終的に、B/Xに対応する第2の区域は崩壊した部分を含み、AとYは、共通の断片B/Xを通じて適当に結合された。随意に、スキャホールドは、B/Xを重複し、B-Yを壊すことでA-BまたはX-Yを含む2つの別個の染色体を作成することにより調整される。
実施例9.染色体破壊の識別
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドのセクションに関して、中心軸の内外で予想より低いリード密度が、2つの部分間の接続部に対応する区域に観察される。最終的に、染色体破壊が存在し、それに応じてスキャホールドが更新される。
実施例10:1倍性の崩壊した部分の識別
リードペア情報を一倍性ゲノムのサンプルに対して得て、リードペアを基準スキャホールドに対してマッピングする。スキャホールドのセクションに関して、中心軸上の予想より高いリード密度(例えば、軸付近のスキャホールド上の他の区域における平均リード密度より高い)が、2つの部分間の接続部に対応する区域に観察される。他の有意な軸外特徴は識別されない。最終的に、高密度の区域は、スキャホールドのアセンブリ中に崩壊した反復部分を表す。反復部分は重複され、スキャホールド中の元の部分に隣接して置かれる。随意にモデルは、反復された部分の軸付近のリード密度がスキャホールドに沿った位置の平均リード密度に近似するまで反復して調整され、反復部分の正確な数がスキャホールドモデルに存在することが示される。
実施例11.ゲノムモデリング
リードペア情報が腫瘍サンプルに対して得られ、リードペアをヒトゲノム基準スキャホールドに対してマッピングする。スキャホールドとリードペアデータとの間に相当数の誤差が観察され、複数の区域に対する予想密度と観察密度との間の変化により明示されるものであり、分析が複雑になる。各誤差は、誤差のサイズに基づいてスコアを提示される。スキャホールドは、各々に加重染色体が含まれている加重ゲノムの集まりとして再構成され、リードペアデータが再びマッピングされる。この結果、誤差の数、したがってスコアの大幅な減少が生じる。結果として、データの分析は通常どおり進み、腫瘍細胞集団の異質性に関する情報が得られる。随意に、図17Aに例示されるように、モデルをさらに低いスコアに反復して調整し、およびスキャホールドのリードペアデータに対しより良い適合を得る。
実施例12.スキャホールドのグラフ表現
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドの部分は、数学的にノードとして表され、マッピングされたリード密度の区域はノードを接続する縁として表される。随意に、各縁は、部分間の接続部がリード密度の観察された区域と場所に基づいて正確である(例えば、遮断縁)可能性に応じて加重される。計算アルゴリズムを利用して、ノード、その後、最短の経路が識別されるまで縁を通る経路を反復して評価する。随意に、機械学習アルゴリズムを利用して、グラフを通る最短経路を見つける。最終的に、最短経路は、リードペアデータの最良適合スキャホールドモデルを表す。このようにグラフとしてアセンブリスキャホールドを表すことで、最良適合スキャホールドモデルの生成に必要な計算時間とエネルギーが全体的に減少する。
実施例13.2倍体性逆位
2倍体性ゲノムを含むサンプルは、基準スキャホールドに対して受けられた少なくとも1つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分a、b、およびcを有する第1の染色体、および、部分d、e、およびfを含む第2の染色体を含む。
リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。
部分a-bとb-cにマッピングされるリードペアの実質的な過小表現を表す局所的密度変位が観察される。最終的に、aとbの右端をbの右端とcに沿わせる再編成が生じた(逆位)。
局所的密度変位をさらに詳しく分析する。観察されるものとして、この局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率の半分しかない。さらに、変位した密度は、部分b間の中点にて、軸外に位置する「蝶ネクタイ」パターンとして存在する。最終的に、逆位は1つの染色体に生じただけであった。
局所的密度変異は、その対称性に関して観察される。確認されるものとして、局所的密度変異は、マッピングの分解能のレベルを持つスキャホールド軸に最も近い直角縁を二分する線に沿って、実質的に双方で対称的である。最終的に、事象は単純な逆位であり、部分bの配向を反転させる。
実施例14.診断法
腫瘍サンプルを患者から採取して配列決定することでリードペアデータを得て、結果として生じるデータをヒト基準ゲノムスキャホールド上にマッピングする。軸外の「蝶ネクタイ」密度特徴を、本明細書中の方法とシステムを使用して識別し、図7に示されるように、これらの特徴を、融合を形成するために1つまたは両方の染色体に対する遺伝子ETV6とNTRK3との間の転座として識別する。特徴の予想密度と観察密度との間の差異は、突然変異を有する腫瘍細胞のゲノム中の染色体のパーセントを示す。この結果から、および随意にリードペアデータからの付加的な特徴の有無から、患者は、癌、例えば乳腺相似分泌癌などを診断され、続いて、この突然変異を伴う癌を標的とすると知られる薬物、例えばNTRK3キナーゼ阻害剤などで処置される。処置レジメンの完了後に腫瘍から取り除かれたサンプルの配列決定は、ETV6-NTRK3転座に対応する特徴の密度の減少または除去を示す。臨床医は、薬物処置によりゲノム中に転座がある腫瘍細胞の死滅が成功したと結論付ける。
実施例15.診断法
腫瘍サンプルを患者から採取して配列決定することでリードペアデータを得て、結果として生じるデータをヒト基準ゲノムスキャホールド上にマッピングする。軸外の「蝶ネクタイ」密度特徴は、遺伝子ETV6とNTRK3との間の転座に相当するものであるが、は、本明細書中の方法とシステムを本明細書に使用しても1つまたは両方の染色体には観察されない。この結果から、および随意にリードペアデータからの付加的な特徴の有無から、臨床医は、患者にNTRK3キナーゼ阻害剤などの薬物による処置は必要ないと結論を下す。

Claims (26)

  1. 核酸構造変異を検出する方法であって、該方法は、
    (a)リードペア配列情報を配列スキャホールド上へマッピングする工程であって、
    該リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペアを示すシンボルを位置決めする工程を含み、これにより、前記配列スキャホールドを表す軸からの前記シンボルの距離が、前記配列スキャホールド上の前記リードペアの第1のリードのマッピング位置から、前記配列スキャホールド上のリードペアの第2のリードのマッピング位置までの距離を示し、かつ、前記配列スキャホールドを表す軸に対する前記シンボルの位置は、前記リードペアの前記第1のリードペアのマッピング位置と、前記リードペアの前記第2のリードのマッピング位置との平均を示す、リードペア配列情報を配列スキャホールド上へマッピングする工程、
    (b)そのようにマッピングされた複数のリード・ペア・シンボルの密度の局所的変異を識別する工程、および
    c)密度の局所的変異を対応する構造配置特徴に割り当てること、または密度の局所的変異が減少するように配列スキャホールドを再構成する工程、
    を含む方法。
  2. 前記密度の局所的変異を、対応する前記構造配置特徴に割り当てる工程を含む、請求項1に記載の方法。
  3. 前記密度の局所的変異が減少するように前記配列スキャホールドを再構成する工程を含む、請求項1に記載の方法。
  4. 前記配列スキャホールドを再構成する工程は、前記配列スキャホールドの少なくとも一部のコンティグを再び順序付ける、または再配向する工程を含む、請求項3に記載の方法。
  5. 前記配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも1つのコンティグへ区切りを導入する工程を含む、請求項3に記載の方法。
  6. 前記配列スキャホールドを再構成する工程は、第1のコンティグの部分を第2のコンティグの内部領域へと転座させる工程を含む、請求項3に記載の方法。
  7. 前記リードペア配列情報を前記配列スキャホールド上へマッピングする工程は、リードペア情報を複数のビンに割り当てる工程を含む、請求項1に記載の方法。
  8. 前記密度の局所的変異を識別する工程は、前記シンボルの密度が局所的に低い領域を識別する工程、または前記シンボルの密度が局所的に高い領域を識別する工程を含む、請求項1に記載の方法。
  9. 前記密度の局所的変異を識別する工程は、第1の位置の密度、および第2の位置の密度を識別する工程を含み、第1の位置の密度および第2の位置の密度が異
    請求項1に記載の方法。
  10. 前記密度の局所的変異を識別する工程は、第1の位置の予測密度、および第1の位置の観察密度を得る工程を含む、請求項1に記載の方法。
  11. サンプルの倍数性に等しい整数値の割合の局所的密度変異は、その割合における事象の倍数性を示す、請求項1に記載の方法。
  12. 前記配列スキャホールドは癌細胞ゲノム、トランスジェニック細胞ゲノム、または遺伝子編集されたゲノムを表す、請求項1に記載の方法。
  13. 配列スキャホールドは、再構成後に少なくとも20%増加したN50を有する、請求項3に記載の方法。
  14. 核酸構造変異を検出する方法であって、該方法は、
    配列スキャホールド情報を含むスキャホールドを得る工程、
    ペアリード情報を得る工程、
    少なくとも一部のリードペア情報は、(i)前記スキャホールドに対するリードペアの各リードの位置を示し、かつ(ii)前記スキャホールドにマッピングされるようなリードと他のリードペアへのリードの間の距離を示、ペアリード情報を展開する工程、
    展開時のペアリード情報の密度の局所的変異を識別する工程、および
    密度の局所的変異を対応する構造配置特徴に割り当てることまたは局所的変異を減らすようにスキャホールドを再構成する工程、
    を含む、方法。
  15. 前記密度の局所的変異を、対応する構造配置特徴に割り当てる工程を含む、請求項14に記載の方法。
  16. 前記局所的変異を減少させるようにスキャホールドを再構成する工程を含む、請求項14に記載の方法。
  17. 前記配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを配列決定する工程を含む、請求項14に記載の方法。
  18. 展開されたリードペア情報に対して予測された密度分布を得る工程を含む、請求項14に記載の方法。
  19. 局所的変異を識別する工程は、密度ピークが直角の頂点にある密度摂動を識別する工程
    を含む、請求項14に記載の方法。
  20. ペアエンドリード情報を得る工程は、未抽出の核酸を架橋する工程、クロマチンにおい
    て結合された核酸を架橋する工程、および/または核酸を核酸結合部分に結合させる工程
    を含む、請求項14に記載の方法。
  21. 前記ペアリード情報を展開する工程は、前記リードペア情報を複数のビンに割り当てる工程を含む、請求項14に記載の方法。
  22. 前記配列スキャホールドを再構成する工程は、前記配列スキャホールドの少なくとも一部のコンティグを再び順序付ける、または再配向する工程を含む、請求項16に記載の方法。
  23. 前記配列スキャホールドを再構成する工程は、前記配列スキャホールドの少なくとも1つのコンティグへ区切りを導入する工程、および/または第1のコンティグの部分を第2のコンティグの内部領域へと転座させる工程を含む、請求項16に記載の方法。
  24. 前記スキャホールドは癌細胞ゲノム、トランスジェニック細胞ゲノム、または遺伝子編集されたゲノムを表す、請求項14に記載の方法。
  25. 前記構造配置特徴は、逆位を含む、請求項1に記載の方法。
  26. 前記構造配置特徴は、逆位を含む、請求項14に記載の方法。
JP2020544593A 2017-11-09 2018-11-08 構造変異の分析 Active JP7297774B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762583974P 2017-11-09 2017-11-09
US62/583,974 2017-11-09
PCT/US2018/059885 WO2019094636A1 (en) 2017-11-09 2018-11-08 Structural variant analysis

Publications (3)

Publication Number Publication Date
JP2021502126A JP2021502126A (ja) 2021-01-28
JP2021502126A5 JP2021502126A5 (ja) 2021-12-16
JP7297774B2 true JP7297774B2 (ja) 2023-06-26

Family

ID=64572504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020544593A Active JP7297774B2 (ja) 2017-11-09 2018-11-08 構造変異の分析

Country Status (7)

Country Link
US (1) US20200321076A1 (ja)
EP (1) EP3707277A1 (ja)
JP (1) JP7297774B2 (ja)
CN (1) CN111566227A (ja)
AU (1) AU2018366198A1 (ja)
CA (1) CA3082050A1 (ja)
WO (1) WO2019094636A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3779733A1 (en) * 2019-08-12 2021-02-17 Universität Bern Information retrieval method
WO2021163637A1 (en) 2020-02-13 2021-08-19 Zymergen Inc. Metagenomic library and natural product discovery platform
AU2021270883A1 (en) * 2020-05-15 2022-11-24 Monsanto Technology Llc Systems and methods for detecting genome edits
CN111627492B (zh) * 2020-05-25 2023-04-28 中国人民解放军军事科学院军事医学研究院 癌症基因组Hi-C数据仿真方法、装置和电子设备
US11468999B2 (en) * 2020-07-31 2022-10-11 Accenture Global Solutions Limited Systems and methods for implementing density variation (DENSVAR) clustering algorithms
CN114743594B (zh) * 2022-03-28 2023-04-18 深圳吉因加医学检验实验室 一种用于结构变异检测的方法、装置和存储介质
CN114944190B (zh) * 2022-05-12 2024-04-19 南开大学 基于Hi-C测序数据的TAD识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300615A1 (en) 2015-02-17 2017-10-19 Dovetail Genomics, Llc Nucleic acid sequence assembly

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411930B2 (en) * 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300615A1 (en) 2015-02-17 2017-10-19 Dovetail Genomics, Llc Nucleic acid sequence assembly

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Chaktraborty, A. and Ay, F.,Identification of copy number variations and translcations in cancer cells from Hi-C data,Bioinformatics,2017年10月18日,34(2),338-345
Dong, Z. et al.,A robust approach for blind detection of balanced chromosomal rearrangements with whole-genome low-coverage sequencing,Human Mutation,2014年,35(5),625-636
Lee, S. et al.,A robust framework for detecting structural variations in a genome,Bioinformatics,2008年,24,i59-i67
Rao, S. S. P.,A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping,Cell,2014年,159,1665-1680
Servant, N. et al.,HiC-Pro: an optimized and flexible pipeline for Hi-C data processing,Genome Biology,2015年,16:259,1-11

Also Published As

Publication number Publication date
AU2018366198A1 (en) 2020-05-28
US20200321076A1 (en) 2020-10-08
CA3082050A1 (en) 2019-05-16
JP2021502126A (ja) 2021-01-28
WO2019094636A1 (en) 2019-05-16
EP3707277A1 (en) 2020-09-16
CN111566227A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
JP7297774B2 (ja) 構造変異の分析
US11600361B2 (en) Nucleic acid sequence assembly
Zhao et al. Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives
Wang et al. Next generation sequencing has lower sequence coverage and poorer SNP-detection capability in the regulatory regions
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
US20120197533A1 (en) Identifying rearrangements in a sequenced genome
JP6762932B2 (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
CN113930507A (zh) 疾病的检测和治疗以及用于传送测试结果的系统和方法
CA3147888A1 (en) Phase-aware determination of identity-by-descent dna segments
Li et al. AIDE: annotation-assisted isoform discovery with high precision
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
Hedges Bioinformatics of Human Genetic Disease Studies
Bhutia et al. 14 Advancement in
Chiu et al. Genome sequencing and application of Taiwanese macaque Macaca cyclopis
Shen et al. FirstSV: Fast and Accurate Approach of Structural Variations Detection for Short DNA fragments
Panda et al. Bioinformatics, systems biology, and systems medicine
NASCIMENTO JÚNIOR ScreenVar-a biclustering-based methodology for evaluating structural variants
WO2021086335A1 (en) In silico genomic variant identification
Bhutia et al. Advancement in Bioinformatics Tools in the Era of Genome Editing-Based Functional Genomics

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230307

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20230323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230614

R150 Certificate of patent or registration of utility model

Ref document number: 7297774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150