JP2018513445A

JP2018513445A - 構造変異の特定及びバリアントコールデータを用いたフェージングのためのシステム及び方法

Info

Publication number: JP2018513445A
Application number: JP2017541686A
Authority: JP
Inventors: キリアゾポウロウ−パナジョトポウロウ，ソフィア; マークス，パトリック; シュナル−レヴィン，マイケル; ジョン，シンイン; ジャローズ，ミルナ; サクソノブ，サージ; ジョルダ，クリスティーナ; ムディヴァルティ，パトリス; オルドネス，ヘザー; テリー，ジェシカ; ヒートン，ウィリアム，ヘインズ
Original assignee: １０エックスゲノミクス，インコーポレイテッド
Priority date: 2015-02-09
Filing date: 2016-02-09
Publication date: 2018-05-24
Also published as: CN107208156B; EP3256606B1; AU2016219480A1; WO2016130578A1; CN107208156A; MX2017010142A; IL253517A0; US10854315B2; EP3256606A4; SG11201705996PA; EP3256606A1; IL253517B; US20210295947A1; CA2975529A1; AU2016219480B2; US20160232291A1

Abstract

構造変異の特定及び生体試料の核酸から取得されるバリアントコールデータを用いるフェージングのためのシステム及び方法が提供される。配列リードが取得され、各配列リードは、試験用核酸のサブセットに対応する部分と、配列データに依存しないバーコードを符号化する部分とを含む。ビン情報が取得される。各ビンは、試料核酸の異なる部分を表す。各ビンは、配列リードで形成される複数の配列リードセット内の配列リードセットに対応するため、各配列リードセット内の各配列リードは、各セットに対応するビンにより表される用核酸のサブセットに対応する。２項検定により、共通の同一バーコードを有する配列リードを、偶然に見込まれるよりも多く有するビン対が特定される。確率モデルにより、これらのビン対の配列リードの構造変異尤度が決定される。【選択図】図１

Description

関連出願の相互参照
本出願は、２０１５年１０月６日に出願された“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｅｔｅｒｍｉｎｉｎｇＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎＵｓｉｎｇＰｒｏｂａｂｉｌｉｓｔｉｃＭｏｄｅｌｓ”と題する米国仮特許出願第６２／２３８，０７７号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。

本出願はまた、２０１５年２月９日に出願された“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｅｔｅｒｍｉｎｉｎｇＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎ”と題する米国仮特許出願第６２／１１３，６９３号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。

本出願はまた、２０１５年２月２４日に出願された“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＩｍｐｌｅｍｅｎｔｉｎｇＬｉｎｋｅｄＲｅａｄＡｌｇｏｒｉｔｈｍｓｆｏｒＨａｐｌｏｔｙｐｅＰｈａｓｉｎｇａｎｄＳｔｒｕｃｔｕｒａｌＶａｒｉａｎｔＤｅｔｅｃｔｉｏｎ”と題する米国仮特許出願第６２／１２０，２４７号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。

本出願はまた、２０１５年２月２４日に出願された“ＤｅｔｅｃｔｉｎｇＳｔｒｕｃｔｕｒａｌＶａｒｉａｎｔｓａｎｄＰｈａｓｉｎｇＨａｐｌｏｔｙｐｅｓｆｒｏｍＣａｎｃｅｒＥｘｏｍｅＳｅｑｕｅｎｃｉｎｇＵｓｉｎｇ１ｎｇＤｎａＩｎｐｕｔ”と題する米国仮特許出願第６２／１２０，３３０号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。

本明細書は、核酸配列データを用いたハプロタイプフェージング及び構造バリアント検出に関する技術を説明する。

超並列配列決定方法論を使用して配列されたヒトゲノムから取得される実験データのハプロタイプアセンブリは、有力な遺伝子データ源となっている。このようなデータは、遺伝子を基にした診断、並びにヒトの疾病の研究、検知、及び患者個人に合わせた治療に関し、費用対効果の高い実行方法として役立つ。

“ＡｎａｌｙｓｉｓｏｆＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅｓ”と題する２０１４年１０月２９日に出願された米国特許出願第６２／０７２，２１４号において開示されるようなプラットフォームにより提供される長範囲情報により、転座、大欠失、または遺伝子融合といったゲノムの大規模構造変異の検出は大いに簡易化された。他の例には、ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ（合成による配列）プラットフォーム（ＩＬＬＵＭＩＮＡ）、Ｂｅｎｔｌｅｙｅｔａｌ．、２００８、“Ａｃｃｕｒａｔｅｗｈｏｌｅｈｕｍａｎｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｒｅｖｅｒｓｉｂｌｅｔｅｒｍｉｎａｔｏｒｃｈｅｍｉｓｔｒｙ”、Ｎａｔｕｒｅ４５６：５３−５９；ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｌｉｔｉｇａｔｉｏｎ（連結による配列）プラットフォーム（ＰＯＬＯＮＡＴＯＲ、ＡＢＩＳＯＬｉＤ）、Ｓｈｅｎｄｕｒｅｅｔａｌ．、２００５、“ＡｃｃｕｒａｔｅＭｕｌｔｉｐｌｅｘＰｏｌｏｎｙＳｅｑｕｅｎｃｉｎｇｏｆａｎＥｖｏｌｖｅｄｂａｃｔｅｒｉａｌＧｅｎｏｍｅ”、Ｓｃｉｅｎｃｅ３０９：１７２８−１７３２；ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ（ピロシーケンス）プラットフォーム（ＲＯＣＨＥ４５４）、Ｍａｒｇｕｌｉｅｓｅｔａｌ．、２００５、“Ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｍｉｃｒｏｆａｂｒｉｃａｔｅｄｈｉｇｈ−ｄｅｎｓｉｔｙｐｉｃｏｌｉｔｅｒｒｅａｃｔｏｒｓ”、Ｎａｔｕｒｅ４３７：３７６−３８０；及びｓｉｎｇｌｅ−ｍｏｌｅｃｕｌｅｓｅｑｕｅｎｃｉｎｇ（単一分子配列）プラットフォーム（ＨＥＬＩＣＯＳＨＥＬＩＳＣＡＰＥ）、Ｐｕｓｈｋａｒｅｖｅｔａｌ．、２００９、“Ｓｉｎｇｌｅ−ｍｏｌｅｃｕｌｅｓｅｑｕｅｎｃｉｎｇｏｆａｎｉｎｄｉｖｉｄｕａｌｈｕｍａｎｇｅｎｏｍｅ”、Ｎａｔｕｒｅｂｉｏｔｅｃｈ１７：８４７−８５０、（ＰＡＣＩＦＩＣＢＩＯＳＣＩＥＮＣＥＳ）Ｅｉｄｅｔａｌ．、“Ｒｅａｌ−ｔｉｍｅｓｅｑｕｅｎｃｉｎｇｆｏｒｍｓｉｎｇｌｅｐｏｌｙｍｅｒａｓｅｍｏｌｅｃｕｌｅｓ”、Ｓｃｉｅｎｃｅ３２３：１３３−１３８、以上が非限定的に含まれ、ぞれぞれの全体が参照により本明細書に組み込まれるものとする。

全ゲノム配列（ＷＧＳ）データからこのようなイベントを検出するために、いくつかのアルゴリズムが開発された。例えば、Ｃｈｅｎｅｔａｌ．、２００９、“ＢｒｅａｋＤａｎｃｅｒ：ａｎａｌｇｏｒｉｔｈｍｆｏｒｈｉｇｈ−ｒｅｓｏｌｕｔｉｏｎｍａｐｐｉｎｇｏｆｇｅｎｏｍｉｃｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎ” ＮａｔｕｒｅＭｅｔｈｏｄｓ６（９）、ｐｐ、６７７−６８１、及びＬａｙｅｒｅｔａｌ．、２０１４、“ＬＵＭＰＹ：Ａｐｒｏｂａｂｉｌｉｓｔｉｃｆｒａｍｅｗｏｒｋｆｏｒｓｔｒｕｃｔｕｒａｌｖａｒｉａｎｔｄｉｓｃｏｖｅｒｙ”、ＧｅｎｏｍｅＢｉｏｌｏｇｙ１５（６）：Ｒ８４を参照されたい。これらのアルゴリズムの目標は、構造バリアントのエンドポイント（例えば欠失または遺伝子融合のエンドポイント）を検出することである。これらのエンドポイントは「ブレークポイント」とも称され、用語エンドポイントとブレークポイントは同じ意味で使用される。ブレークポイントを検出するにあたって、既存のアルゴリズムは、お互いに対して予期しない向き、または予期しない距離（挿入サイズに関してお互いに離れすぎている、またはお互いに近すぎる）でゲノムにマッピングされたリード対の検出に依拠する。これは、従来のアルゴリズムによりブレークポイントが検出されるためには、ブレークポイントにリード対が及んでいなければならないことを意味する。この制限により、既存のアルゴリズムは、全エクソーム配列（ＷＥＳ）データといった標的配列データには適用不可能である。なぜならブレークポイントが対象領域に非常に近い場合にのみ、リード対はブレークポイントに及び得るからである。これは通常、事実と異なる。例えば、癌における数多くの遺伝子融合は、遺伝子エクソンではなくイントロン上で起こるため、ＷＥＳでは検出不可能であり得る。

ヒトゲノムの大部分にわたるハプロタイプデータの可用性に伴い、上述の診断、発見、及び治療の目標を前進させるため、特に個人ゲノムの全ゲノム配列解析費用が１０００ドル未満に落ちるように、当データに効率的に取り組む方法が必要となった。このようなデータからハプロタイプを計算的にアセンブルするために、試料内に存在する２個のハプロタイプのリードを解き、両ハプロタイプのコンセンサス配列を推測する必要がある。このような問題は、ＮＰ困難として示されている。Ｌｉｐｐｅｒｔｅｔａｌ．、２００２、“Ａｌｇｏｒｉｔｈｍｉｃｓｔｒａｔｅｇｉｅｓｆｏｒｔｈｅｓｉｎｇｌｅｎｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍｈａｐｌｏｔｙｐｅａｓｓｍｂｌｙｐｒｏｂｌｅｍ”、Ｂｒｉｅｆ．Ｂｉｏｎｆｏｒｍ３：２３−３１を参照されたい。参照により当文献は本明細書に組み込まれるものとする。

前述の背景を考慮すると、当技術分野において必要なものは、並列配列決定方法論による配列データを用いたハプロタイプフェージング及び構造バリアント検出のための改良されたシステム及び方法である。

構造変異の特定及びハプロタイプフェージングのための技術的解決策（例えばコンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体）が提供される。“ＡｎａｌｙｓｉｓｏｆＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅｓ”と題する２０１４年１０月２９日に出願された米国仮特許出願第６２／０７２，２１４号、または２０１５年２月９日に出願された“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｅｔｅｒｍｉｎｉｎｇＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎ”と題する米国仮特許出願第６２／１１３，６９３号は、それぞれ参照により本明細書に組み込まれるが、当文献に開示されるようなプラットフォームにより、対象特定の前にゲノムは断片化され、パーティション化され、バーコード化される。従って、バーコード情報の整合性が、ゲノム全体で保持される。著しいバーコードオーバーラップを示すゲノムの領域を検出することにより、潜在的な構造変異ブレークポイントを特定するために、バーコード情報が使用される。これらはフェージング情報の取得にも使用される。

以下は、発明の態様のうちのいくつかに関する基本的理解を提供するために、発明の概要を提示する。当概要は、発明の広範な要旨ではない。当概要は、発明の重要／決定的な要素を特定する、または発明の範囲を線引きすることを意図していない。その唯一の目的は、後で提示されるより詳細な説明への前置きとして、発明の概念のうちのいくつかを簡潔な形態で提示することにある。

添付の特許請求の範囲に含まれるシステム、方法、及び装置の様々な実施形態はそれぞれいくつかの態様を有し、それらのうちどれ１つも本明細書において説明される所望属性の責任を単一では負わない。添付の特許請求の範囲を制限することなく、いくつかの顕著な特徴が本明細書において説明される。当考察を検討した後、特に「発明を実施するための形態」と題する節を読んだ後に、様々な実施形態の特徴がどのように使用されるかが理解されるだろう。

パートＡ、構造変異
いくつかの実施態様において、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法が提供される。方法は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、ある動作を実行することを含む。複数の配列リードが取得される。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第１部分と、各配列リードのバーコードを符号化する第２部分とを備える。本明細書において使用される用語「ｓｅｑｕｅｎｃｅｒｅａｄ」と「ｓｅｑｕｅｎｃｉｎｇｒｅａｄ」は、同じ意味（配列リード）で使用される。バーコードは、試験用核酸の配列データに依存しない。いくつかの実施形態において、複数の配列リード内の第１配列リードは、１０キロ塩基対（ｋｂｐ）、２０ｋｂｐ、３０ｋｂｐ、４０ｋｂｐ、５０ｋｂｐ、６０ｋｂｐ、７０ｋｂｐ、８０ｋｂｐ、９０ｋｂｐ、または１００ｋｂｐより大きい試験用核酸のサブセットに由来する。いくつかの実施形態において、複数の配列リード内の第１配列リードは、２×３６ｂｐ、２×５０ｂｐ、２×７６ｂｐ、２×１００ｂｐ、２×１５０ｂｐ、または２×２５０ｂｐであり、用語２×Ｎｂｐは、配列リードが、不特定の長さに切り離された１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の長さＮ塩基対の２つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、２００〜１２００塩基対である。いくつかの実施形態において、複数の配列リード内の第１配列リードは、１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の少なくとも２５ｂｐ、少なくとも３０ｂｐ、少なくとも５０ｂｐ、少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも２５０ｂｐ、少なくとも５００ｂｐ、５００ｂｐ未満、４００ｂｐ未満、または３００ｂｐ未満を表す。

複数のビンに関するビン情報も取得される。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、複数の配列リードに含まれる。さらに、複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第１部分を有し、各第１部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。

複数の配列リードのうち、複数のビン内の第１ビンに属する配列リード第１セットにおいて存在し、かつ複数の配列リードのうち、複数のビン内の第２ビンに属する配列リード第２セットにおいても存在する一意的バーコードの数に関して特定が行われる。この点から、当特定数が偶然に起因している可能性または見込みが、（ａ）特定数に基づくメトリクと（ｂ）閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、（ｉ）配列リード第１セットにより表される試験用核酸の異なる部分、及び／または（ｉｉ）配列リード第２セットにより表される試験用核酸の異なる部分において起こったとみなされる。いくつかの実施形態において、当メトリクは以下のように計算される。

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、配列リード第１及び第２セットの両方に存在するｎ個の一意的バーコードのセットであり、ｉはｎに対する整数指数であり、

は、配列リードｂ_ｉの第１部分が現れる複数のビンの分率である。いくつかのこのような実施形態において、ｐが１０^−２以下、１０^−３以下、１０^−４以下、１０^−５以下、１０^−６以下、または１０^−７以下である時、メトリクは閾値基準を満たすとみなされる。

いくつかの実施形態において、構造変異は、配列リード第１セットにより表される試験用核酸の異なる部分に対する、５０連続塩基以上、５００連続塩基以上、５０００連続塩基以上、または１００００連続塩基以上の挿入または欠失である。いくつかの実施形態において、構造変異は、一塩基多型である。

いくつかの実施形態において、メトリクが閾値基準を満たすとみなされると、方法はさらに、特定数の配列リード内の各配列リードを、（ｉ）配列リード第１セットに対応する試験用核酸のサブセットと、（ｉｉ）配列リード第２セットに対応する試験用核酸のサブセットとに、アラインすることを含む。このようなアライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第１セットに対応する試験用核酸のサブセットに対する第１アライメント品質が決定される。その後、当アライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第２セットに対応する試験用核酸のサブセットに対する第２アライメント品質が決定される。類似する第１アライメント品質及び第２アライメント品質を有する各配列リードは、特定数の配列リードから除かれる。この新たな配列リードの特定数を伴い、（Ａ）新たに削減された特定数に基づくメトリクと（Ｂ）閾値基準との比較により、当特定数が偶然に起因している可能性または見込みを決定する動作が再計算される。再計算されたメトリクが閾値基準を満たす場合、構造変異は、（ｉ）配列リード第１セットにより表される試験用核酸の異なる部分、及び／または（ｉｉ）配列リード第２セットにより表される試験用核酸の異なる部分において起こったとみなされる。

いくつかの実施形態において、ブラックアウトリストが保持される。当ブラックアウトリストは、試験用核酸の複数のブラックアウト領域を含む。このような実施形態において、配列リードの第１部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、閾値基準に対する評価を行うために使用される特定数の配列リードから、当配列リードは除かれる。

いくつかの実施形態において、複数のビン内の各ビンは、少なくとも２０ｋｂｐ、少なくとも５０ｋｂｐ、少なくとも１００ｋｂｐ、少なくとも２５０ｋｂｐ、または少なくとも５００ｋｂｐを表す。

いくつかの実施形態において、第１ビンにより表される試験用核酸の異なる部分は、第２ビンにより表される試験用核酸の異なる部分とオーバーラップする。いくつかのこのような実施形態において、第１ビンにより表される試験用核酸の異なる部分の少なくとも５０パーセント、少なくとも８０パーセント、または少なくとも９５パーセントが、第２ビンにより表される試験用核酸の異なる部分とオーバーラップする。

いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分は、オーバーラップしない。

いくつかの実施形態において、複数の配列リード内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第１部分を有し、各第１部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と完全にオーバーラップする。

いくつかの実施形態において、複数のビンは、１０，０００個以上のビン、１００，０００個以上のビン、または１，０００，０００個以上のビンを含む。いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸は、複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む。

いくつかの実施形態において、複数の配列リード内の各配列リードの第２部分におけるバーコードは、セット｛１、・・・、１０２４｝、セット｛１、・・・、４０９６｝、セット｛１、・・・、１６３８４｝、セット｛１、・・・、６５５３６｝、セット｛１、・・・、２６２１４４｝、セット｛１、・・・、１０４８５７６｝、セット｛１、・・・、４１９４３０４｝、セット｛１、・・・、１６７７７２１６｝、セット｛１、・・・、６７１０８８６４｝、またはセット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する。

いくつかの実施形態において、複数の配列リード内の配列リードの第２部分におけるバーコードは、オリゴヌクレオチド連続セットに局所化される。いくつかのこのような実施形態において、オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎはセット｛４、・・・、２０｝から選択される整数である。

いくつかの実施形態において、複数の配列リード内の配列リードの第２部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。例えば、非連続セットは、様々な実施形態において、配列リードの２非連続部分、３非連続部分、４非連続部分、５非連続部分、またはそれ以上に局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎはセット｛４、・・・、２０｝内の整数である。

いくつかの実施形態において、第１配列リードは、２０ｋｂｐ、３０ｋｂｐ、４０ｋｂｐ、５０ｋｂｐ、６０ｋｂｐ、７０ｋｂｐ、または８０ｋｂｐより大きい試験用核酸のサブセットに対応する。いくつかの実施形態において、複数の配列リード内の第１配列リードは、２×３６ｂｐ、２×５０ｂｐ、２×７６ｂｐ、２×１００ｂｐ、２×１５０ｂｐ、または２×２５０ｂｐであり、用語２×Ｎｂｐは、配列リードが、不特定の長さに切り離された１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の長さＮ塩基対の２つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、２００〜１２００塩基対である。いくつかの実施形態において、複数の配列リード内の第１配列リードは、１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の少なくとも２５ｂｐ、少なくとも３０ｂｐ、少なくとも５０ｂｐ、少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも２５０ｂｐ、少なくとも５００ｂｐ、５００ｂｐ未満、４００ｂｐ未満、または３００ｂｐ未満を表す。

いくつかの実施形態において、構造変異は、配列リード第２セットにより表される試験用核酸の異なる部分から、配列リード第１セットにより表される試験用核酸の異なる部分への５０連続塩基以上の転座である。

いくつかの実施形態において、配列リード第１セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第１染色体に由来し、配列リード第２セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第２染色体に由来し、第２染色体は第１染色体とは異なる。いくつかのこのような実施形態において、第１染色体は父系染色体であり、第２染色体は母系染色体である。いくつかのこのような実施形態において、生体試料はヒトであり、第１染色体は染色体２１、１８、または１３である。

いくつかの実施形態において、構造変異が起こったとみなされると、方法はさらに、構造変異に応じる治療方式で生体試料の由来する対象者を治療することを含む。いくつかの実施形態において、治療方式は、食事改善を含む。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む。

本開示の別の態様は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを備えるコンピューティングシステムである。１つまたは複数のプログラムは、複数の配列リードを取得する命令を含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第１部分と、各配列リードのバーコードを符号化する第２部分とを備える。バーコードは、試験用核酸の配列データに依存しない。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、複数の配列リードに含まれる。さらに、複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第１部分を有し、各第１部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。複数の配列リードのうち、複数のビン内の第１ビンに属する配列リード第１セットにおいて存在し、かつ複数の配列リードのうち、複数のビン内の第２ビンに属する配列リード第２セットにおいても存在する一意的バーコードの数に関して特定が行われる。当特定数が偶然に起因している可能性または見込みが、当特定数に基づくメトリクと閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、（ｉ）配列リード第１セットにより表される試験用核酸の異なる部分、及び／または（ｉｉ）配列リード第２セットにより表される試験用核酸の異なる部分において起こったとみなされる。

本開示の別の態様は、コンピュータにより実行されるように構成された１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。１つまたは複数のプログラムは、複数の配列リードを取得する命令を含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第１部分と、各配列リードのバーコードを符号化する第２部分とを備える。バーコードは、試験用核酸の配列データに依存しない。複数のビンに関するビン情報が取得される。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、複数の配列リードに含まれる。さらに、複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第１部分を有し、各第１部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。複数の配列リードのうち、複数のビン内の第１ビンに属する配列リード第１セットにおいて存在し、かつ複数の配列リードのうち、複数のビン内の第２ビンに属する配列リード第２セットにおいても存在する一意的バーコードの数に関して特定が行われる。当特定数が偶然に起因している可能性または見込みが、当特定数に基づくメトリクと閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、（ｉ）配列リード第１セットにより表される試験用核酸の異なる部分、及び／または（ｉｉ）配列リード第２セットにより表される試験用核酸の異なる部分において起こったとみなされる。

パートＢ、構造変異に対する追加実施形態
本開示の別の態様は、一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法を提供する。方法は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得することを含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第１部分と、各配列リードのバーコードを符号化する第２部分とを備える。バーコードは、試験用核酸の配列データに依存しない。

方法はさらに、複数のビンに関するビン情報を取得することを含む。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードの各第１部分は、試験用核酸のサブセットに対応し、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。

方法はさらに、複数のビンの中から、試験用核酸の部分に対応し、かつオーバーラップしない第１ビン及び第２ビンを特定することを含む。第１ビンは複数の配列リード内の配列リード第１セットにより表され、第２ビンは複数の配列リード内の配列リード第２セットにより表される。

方法はさらに、第１セット及び第２セットに共通するバーコードの数が偶然に起因している数値的可能性または見込みを表す第１値を決定することを含む。

方法はさらに、第１値が所定のカットオフ値を満たすという判定に応じて、第１ビン及び第２ビンに共通のバーコードごとに断片対を取得することにより、１つまたは複数の断片対を取得することを含む。１つまたは複数の断片対内の各断片対は、（ｉ）第１ビン及び第２ビンに共通の異なるバーコードに対応し、（ｉｉ）異なる第１計算断片と異なる第２計算断片とで構成される。１つまたは複数の断片対内の各断片対に関して、異なる第１計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第１サブセットで構成され、各配列リード第１サブセット内の各配列リードは、各配列リード第１サブセット内の別の配列リードの定義済み遺伝距離内にあり、各断片対の異なる第１計算断片は、第１ビン内の各断片対に対応するバーコードを有する第１配列リードに起因し、各配列リード第１サブセット内の各配列リードは第１ビンに由来する。異なる第２計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第２サブセットで構成され、各配列リード第２サブセット内の各配列リードは、各配列リード第２サブセット内の別の配列リードの定義済み遺伝距離内にあり、各断片対の異なる第２計算断片は、第２ビン内の各断片対に対応するバーコードを有する第２配列リードに起因し、各配列リード第２サブセット内の各配列リードは第２ビンに由来する。

方法はさらに、１つまたは複数の断片対に関して、第１モデルの発生確率及び第２モデルの発生確率に基づいて各尤度を計算することで、試験用核酸における構造変異の尤度を提供することを含む。ここで、第１モデルは、１つまたは複数の断片対の各第１計算断片及び各第２計算断片が、対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示する。さらに、第２モデルは、１つまたは複数の断片対の各第１計算断片及び各第２計算断片が、対象核酸配列内に構造変異があると観察されることを明示する。

いくつかの実施形態において、計算される尤度の表現は、第１モデルの発生確率と第２モデルの発生確率との比率スコアである。

いくつかの実施形態において、第１ビン及び第２ビンは、試験用核酸上で少なくとも所定数のキロ塩基分、離れている。

いくつかの実施形態において、第１ビン及び第２ビンは、試験用核酸上で少なくとも５０キロ塩基分、離れている。

いくつかの実施形態において、２項検定を使用して第１値が計算される。いくつかの実施形態において、この２項検定は以下の形式を有する。

ｐはｐ値と表される第１値であり、ｎは配列リード第１及び第２セット両方において存在する一意的バーコードの数であり、ｎ_１は配列リード第１セット内の一意的バーコードの数であり、ｎ_２は配列リード第２セット内の一意的バーコードの数であり、Ｂは複数のビンにわたる一意的バーコードの総数である。

いくつかの実施形態において、一生体試料はヒトであり、試験用核酸は生体試料のゲノムであり、第１値が１０^−１４以下である場合に第１値は所定のカットオフ値を満たす。いくつかの実施形態において、一生体試料はヒトであり、試験用核酸は生体試料のゲノムであり、第１値が１０^−１５以下である場合に第１値は所定のカットオフ値を満たす。

いくつかの実施形態において、構造変異は、配列リード第１セットにより表される試験用核酸の異なる部分に対する、５０連続塩基以上の挿入または欠失である。いくつかの実施形態において、構造変異は、配列リード第１セットにより表される試験用核酸の異なる部分に対する、５００連続塩基以上の挿入または欠失である。いくつかの実施形態において、構造変異は、配列リード第１セットにより表される試験用核酸の異なる部分に対する、５０００連続塩基以上の挿入または欠失である。

いくつかの実施形態において、構造変異は、遺伝子疾患に関連する。いくつかの実施形態において、複数のビン内の各ビンは、試験用核酸の少なくとも２０キロ塩基、試験用核酸の少なくとも５０キロ塩基、試験用核酸の少なくとも１００キロ塩基、試験用核酸の少なくとも２５０キロ塩基、または試験用核酸の少なくとも５００キロ塩基を表す。いくつかの実施形態において、複数の配列リード内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第１部分を有し、各第１部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と完全にオーバーラップする。

いくつかの実施形態において、複数のビンは、１０，０００個以上のビン、１００，０００個以上のビン、または１，０００，０００個以上のビンを含む。

いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸は、複数染色体生物種内の複数の染色体を集合的に表す複数の核酸を含む。

いくつかの実施形態において、複数の配列リード内の各配列リードの第２部分におけるバーコードは、セット｛１、・・・、１０２４｝から選択される、セット｛１、・・・、４０９６｝から選択される、セット｛１、・・・、１６３８４｝から選択される、セット｛１、・・・、６５５３６｝から選択される、セット｛１、・・・、２６２１４４｝から選択される、セット｛１、・・・、１０４８５７６｝から選択される、セット｛１、・・・、４１９４３０４｝から選択される、セット｛１、・・・、１６７７７２１６｝から選択される、セット｛１、・・・、６７１０８８６４｝から選択される、またはセット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する。

いくつかの実施形態において、複数の配列リード内の各配列リードの第２部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。

いくつかの実施形態において、オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎはセット｛４、・・・、２０｝から選択される整数である。

いくつかの実施形態において、複数の配列リード内の配列リードの第２部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎはセット｛４、・・・、２０｝内の整数である。

いくつかの実施形態において、第１配列リードは、１０キロ塩基より大きい試験用核酸の第１サブセットに対応する。いくつかの実施形態において、第１配列リードは、２０キロ塩基より大きい試験用核酸の第１サブセットに対応する。

いくつかの実施形態において、構造変異が起こったとみなされると、方法はさらに、構造変異に応じる治療方式で生体試料の由来する対象者を治療することを含む。

いくつかの実施形態において、治療方式は、食事改善を含む。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む。

いくつかの実施形態において、第１及び第２ビンの識別は、疎行列乗算を使用して決定される。いくつかの実施形態において、疎行列乗算は以下の形式を有する。

Ａ_１は第１ビンを含む第１Ｂ×Ｎ_１バーコード行列であり、Ａ_２は第２ビンを含む第２Ｂ×Ｎ_２バーコード行列であり、Ｂは複数のビンにわたる一意的バーコードの数であり、Ｎ_１はＡ_１内のビンの数であり、Ｎ_２はＡ_２内のビンの数であり、

は行列Ａ_１の転置行列である。

いくつかの実施形態において、第１ビンは生体試料の第１染色体に対応付けられ、第２ビンは生体試料の第２染色体に対応付けられ、Ｎ_１は第１染色体に対応付けられたビンの数であり、Ｎ_２は第２染色体に対応付けられたビンの数である。

いくつかの実施形態において、第１及び第２ビンは両方とも生体試料の第１染色体に対応付けられ、Ｎ_１は第１染色体に対応付けられたビンの数であり、Ｎ_２はＮ_１と等しい。

いくつかの実施形態において、試験用核酸の複数のブラックアウト領域を含むブラックアウトリストが保持され、方法はさらに、配列リードの第１部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合に、複数の配列リードから当配列リードを除くことを含む。

いくつかの実施形態において、計算において計算尤度は、以下のように計算される。

ＬＲは複数の項の積に等しく、複数の項内の各項は（ｉ）１つまたは複数の断片対内の各断片対を表し、（ｉｉ）以下の形式を有する。

ｒ_１は各断片対の第１計算断片における各配列リード第１サブセット内の配列リードの数であり、ｌ_１は各断片対の配列リード第１サブセットにより決定される第１計算断片の長さであり、ｒ_２は各断片対の第２計算断片における各配列リード第２サブセット内のリードの数であり、ｌ_２は各断片対の配列リード第２サブセットにより決定される第２計算断片の長さであり、ｄは試験用核酸内の各断片対の第１計算断片と第２計算断片との間の距離であり、ａ_ｂは複数の配列リードにわたる第１バーコードのリードレートであり、ＳＶは第１モデルに従って第１計算断片及び第２計算断片が観察されたことを示し、ｎｏＳＶは第２モデルに従って第１計算断片及び第２計算断片が観察されたことを示す。

いくつかの実施形態において、

であり、ＳＭは、複数の配列決定反応において第１計算分子及び第２計算分子が試験用核酸の同一断片に由来しているという仮定であり、ＤＭは、複数の配列決定反応において第１計算分子及び第２計算分子が試験用核酸の異なる断片に由来しているという仮定であり、

であり、

は、長さが不明の第１分子から、観察された長さｌ_１に及ぶｒ_１個のリードを観察する確率であり、

は、長さが不明の第２分子から、観察された長さｌ_２に及ぶｒ_２個のリードを観察する確率である。

いくつかの実施形態において、

及び

は、それぞれ以下のように計算される。

はパラメータｂによるポアソン分布の確率質量関数であり、

は各分子の実分子長がｍである（予測）確率である。

いくつかの実施形態において、

は、以下のように計算される。

ｍは実分子長の長さであり、

はｒ_１に対するパラメータｂによるポアソン分布の確率質量関数であり、

はｒ_２に対するパラメータｂによるポアソン分布の確率質量関数であり、

はパラメータｂによるポアソン分布の確率質量関数であり、

は実の共通分子長がｍである予測確率である。

いくつかの実施形態において、

であり、ＳＭは、複数の配列決定反応において第１計算分子及び第２計算分子が試験用核酸の同一断片に由来しているという仮定であり、ＤＭは、複数の配列決定反応において第１計算分子及び第２計算分子が試験用核酸の異なる断片に由来しているという仮定であり、

であり、

は、長さが不明の第１分子から、観察された長さｌ_１に及ぶｒ_１個のリードを観察する確率であり、

は、長さが不明の第２分子から、観察された長さｌ_２に及ぶｒ_２個のリードを観察する確率であり、そして２ｄ’＝は、第１計算分子及び第２計算分子に対応付けられた構造変異のブレークポイントの推定を考慮した、試験用核酸内の各断片対の第１計算断片と第２計算断片との間の距離である。いくつかのこのような実施形態において、

及び

は、それぞれ以下のように計算される。

はパラメータｂによるポアソン分布の確率質量関数であり、

は各分子の実分子長がｍである（予測）確率である。いくつかのこのような実施形態において、

は、以下のように計算される。

ｍは実分子長の長さであり、

はｒ_１に対するパラメータｂによるポアソン分布の確率質量関数であり、

はｒ_２に対するパラメータｂによるポアソン分布の確率質量関数であり、

はパラメータｂによるポアソン分布の確率質量関数であり、

は実の共通分子長がｍである予測確率である。いくつかのこのような実施形態において、２ｄ’は、

となる最大限ｄ’を計算することにより推定される。

いくつかの実施形態において、複数の配列リードは、全ゲノム配列データを表す。いくつかの実施形態において、複数の配列リードは、ゲノムのサブセットの標的配列を表し、複数の配列リードの第１サブセットは、ゲノムのサブセット内に由来し、

の第１リードレートを有し、複数の配列リードの第２サブセットはゲノムのサブセット外に由来し、

の第１リードレートを有し、

は

とは異なり、計算（Ｆ）の尤度により、複数の配列リードのそれぞれの第１及び第２サブセットの異なるリードレートは補正される。

本開示の別の態様は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを備えるコンピューティングシステムを提供する。１つまたは複数のプログラムは、試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得する命令を含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第１部分と、各配列リードのバーコードを符号化する第２部分とを備える。バーコードは、試験用核酸の配列データに依存しない。

１つまたは複数のプログラムはさらに、複数のビンに関するビン情報を取得する命令を含む。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードの各第１部分は、試験用核酸のサブセットに対応し、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。１つまたは複数のプログラムはさらに、複数のビンの中から、試験用核酸の部分に対応し、かつオーバーラップしない第１ビン及び第２ビンを特定する命令を含み、第１ビンは複数の配列リード内の配列リード第１セットにより表され、第２ビンは複数の配列リード内の配列リード第２セットにより表される。

１つまたは複数のプログラムはさらに、第１セット及び第２セットに共通するバーコードの数が偶然に起因している数値的可能性または見込みを表す第１値を決定する命令を含む。

１つまたは複数のプログラムはさらに、第１値が所定のカットオフ値を満たすという判定に応じて、第１ビン及び第２ビンに共通のバーコードごとに断片対を取得することにより、１つまたは複数の断片対を取得すること命令を含む。１つまたは複数の断片対内の各断片対は、（ｉ）第１ビン及び第２ビンに共通の異なるバーコードに対応し、（ｉｉ）異なる第１計算断片と異なる第２計算断片とで構成され、１つまたは複数の断片対内の断片対ごとに、以下のことが言える。異なる第１計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第１サブセットで構成される。各配列リード第１サブセット内の各配列リードは、各配列リード第１サブセット内の別の配列リードの定義済み遺伝距離内にある。各断片対の異なる第１計算断片は、第１ビン内の各断片対に対応するバーコードを有する第１配列リードに起因する。各配列リード第１サブセット内の各配列リードは第１ビンに由来する。異なる第２計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第２サブセットで構成される。各配列リード第２サブセット内の各配列リードは、各配列リード第２サブセット内の別の配列リードの定義済み遺伝距離内にある。各断片対の異なる第２計算断片は、第２ビン内の各断片対に対応するバーコードを有する第２配列リードに起因する。各配列リード第２サブセット内の各配列リードは第２ビンに由来する。１つまたは複数のプログラムは、１つまたは複数の断片対に関して、第１モデルの発生確率及び第２モデルの発生確率に基づいて各尤度を計算することで、試験用核酸における構造変異の尤度を提供する命令を含む。ここで、第１モデルは、１つまたは複数の断片対の各第１計算断片及び各第２計算断片が、対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示する。さらに、第２モデルは、１つまたは複数の断片対の各第１計算断片及び各第２計算断片が、対象核酸配列内に構造変異があると観察されることを明示する。

パートＣ、フェージング方法
本開示の別の態様は、試験用核酸試料の配列データをフェージングする方法を提供する。いくつかの実施形態において、試験用核酸試料は、生物種の一有機体の一生体試料から取得される。いくつかの実施形態において、試験用核酸試料は、一生体試料から取得されるが、一生物種より多くを表し得る。このような状況は、例えば、ホストが例えばレトロウイルスにより感染した場合に起こる。

試験用核酸試料は、ハプロタイプ第１セット（Ｈ_０）及びハプロタイプ第２セット（Ｈ_１）を含む。言い換えると、生体試料は２倍体であり、母系及び父系ハプロタイプを遺伝的に受け継ぐ。例えば、生体試料のゲノムのいくつかの部分は父系的に受け継いでおり、一方当ゲノムの他の部分は母系的に受け継いでいる。母系的に引き継いだ部分が任意でハプロタイプＨ_０に指定される場合、父系的に引き継いだ部分はＨ_１に指定される。

代表的な実施形態において、方法は、１つまたは複数のプロセッサと、方法の１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される。開示される方法において、生物種のゲノムの全部または一部に関する参照コンセンサス配列が取得される。いくつかの実施形態において、参照コンセンサス配列は、部分的すなわち不完全である。いくつかの実施形態において、参照コンセンサス配列は、生物種の一有機体のみの配列である。いくつかの実施形態において、参照コンセンサス配列は、生物種の複数の有機体のコンセンサス配列である。

方法において、複数のバリアントコールＡ_ｉ；ｐが取得される。ここで、ｉは参照コンセンサス配列内の位置に対する指数である。いくつかの実施形態において、

であり、ラベル「０」はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル「１」は各バリアントコールをＨ_１に割り当て、そしてｎはＡ_ｉ；ｐ内のバリアントコールの数である。例えば、ｎが５である場合、Ａ_ｉ；ｐ内に５個の位置ｉがあり、このような位置はそれぞれ、独立的に０（第１ハプロタイプを示す）または１（第２ハプロタイプを示す）にラベル分類される。

いくつかの代替実施形態において、

であり、ラベル「０」はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル「１」は各バリアントコールをＨ_１に割り当て、そしてラベル「−１」はバリアントコールのハプロタイプへの割り当てにおけるエラー状態を示す有利な可能性を提供する。当代替実施形態は、位置におけるコールＡ_ｉ；ｐをＨ_０またはＨ_１で提供するために依存する標準バリアントコールアルゴリズムが、実際には時折このような位置を不正確にコールし得ることを考慮する。例えば、同一配列の核酸断片ｆに由来する２０個の配列リードが、それぞれ同一バーコード１３２を有し、断片ｆの位置ｉに存在する事例を検討し、さらに、従来のバリアントコールアルゴリズムが位置ｉを、位置ｉにてＨ_０とコールされる１７個の配列リードと、位置ｉにてＨ_１とコールされる残り３個の配列リードとを有する異型接合とコールすると仮定する。さらに、断片ｆの位置ｉのグラウンドトルースは、実際には同型接合Ｈ_０であり、すなわち標準バリアントコールアルゴリズムは、全２０個の配列リードに関して位置ｉをＨ_０とコールすべきであったと仮定する。故に、従来のハプロタイプ割り当ては、配列リードのうち３個の配列リードを誤ってコールした。開示される代替フェージング実施形態

は、この形態のエラーの可能性を有利に考慮する。位置ｉにて２０個の配列リードのうち３個の配列リードが誤ってコールされた前述の２０個の配列リードの実施例において、開示されるフェージングアルゴリズムにより位置ｉにおけるこのようなエラーがサンプリングされると（より良いフェージング解を提供しているかを確かめるために）、全２０個の配列リードにおける当位置ｉは−１（Ｈ_−１）、エラーステートに割り当てられる。このエラーステートに関して選択的にサンプリングする能力は、例えば配列決定エラー、弱い配列信号等によって起こる入力データのエラーから、フェージングアルゴリズムを有利に守る。

方法において、複数のバーコード化配列リード

が取得される。いくつかの実施形態において、複数の配列リード内の各配列リード

は、ｑが

に対する整数指数であり、参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第２部分とを備える。

いくつかの実施形態において、複数の配列リード

内の各配列リード
は、

であり、（ｉ）各配列リード
に対する各ラベル「０」は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉ）各配列リード
に対する各ラベル「１」は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_１に割り当て、（ｉｉｉ）各配列リード
に対する各ラベル「−」は、Ａ_ｉ；ｐ内の対応バリアントコールが対象外であることを示す。例えば、
がＡ_ｉ；ｐ内の１０個のバリアントコールのうち５個のバリアントコールを含む事例を検討する。当実施例において、
は、値「−」を有する５個のバリアントコールを含む。これらのバリアントコールは各配列リードに存在せず、
はＡ_ｉ；ｐ内の他の５個のバリアントコールの値を含むからである。これらの５個の値における各値は、配列リード内の各バリアントコールに割り当てられたハプロタイプに応じて、０または１となる。いくつかの実施形態において、このようなハプロタイプ割り当ては、従来のハプロタイプ割り当てアルゴリズムを使用して、個々の配列リードにおけるバリアントコールに対し取得される。

いくつかの実施形態において、前述のようなバリアントコールの接合状態における可能性のあるエラーを考慮するために、複数の配列リード

内の各配列リード
は

となり、（ｉ）各配列リード
に対する各ラベル「０」は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉ）各配列リード
に対する各ラベル「１」は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_１に割り当て、（ｉｉｉ）各配列リード
に対する各ラベル「−１」は、Ａ_ｉ；ｐ内の対応バリアントコールを接合エラー状態（存在するがＨ_０でもＨ_１でもない）に割り当て、（ｉｖ）各配列リード
に対する各ラベル「−」は、Ａ_ｉ；ｐ内の対応バリアントコールが対象外であることを示す。

開示される方法において、フェージング結果

は、Ａ_ｉ；ｐ内の個々の位置ｉにおけるハプロタイプ割り当ての最適化により取得される。複数の配列リード

内の各配列リード
が

である実施形態において、複数の配列リードの個々の位置ｉにおけるこれらのハプロタイプ割り当てはそれぞれＨ_０またはＨ_１である。位置ｉの接合状態における可能性のあるエラーがフェージングアルゴリズムで追加サンプリングされる代替実施形態において、複数の配列リード内の各配列リード
は

であり、複数の配列リードの個々の位置ｉにおけるこれらのハプロタイプ割り当てはそれぞれＨ_０またはＨ_１またはＨ_−１であり、Ｈ_−１は前述の接合エラー状態を示す。

配列リードは、参照ゲノムにアラインされる。さらに、同一バーコードを有する配列リードは、一緒にグループ化される。このように、共通バーコードを有する配列リードは、単一ゲノム投入断片ｆに由来している見込みのあるグループにパーティション化され、従って当配列リードに含まれるアレルが同一ハプロタイプに由来するという証拠を提供する。

複数の配列リード
内の各配列リード
が

である実施形態において、観察配列リードが断片ｆのバリアントｉを含む確率は以下のように計算される。

ｒは断片ｆの全配列リードの合計であり、

は、断片ｆのｒ番目の配列リードＳ_ｒがＡ_ｉ，ｐと一致する場合に値「１」となり、そうでない場合は「０」となる指示関数であり、

は、断片ｆのｒ番目の配列リードＳ_ｒがＡ_ｉ，ｐと一致しない場合に値「１」となり、そうでない場合は「０」となる指示関数であり、Ｑ_ｒは、ｒ番目の配列リードに対応付けられた関連品質値である。

複数の配列リード
内の各配列リード

が

である実施形態において、位置ｉにおける接合エラーは追加でサンプリング可能であり、観察配列リードが断片ｆのバリアントｉを含む確率は以下のように計算される。

Ｘ⁻はＨ_−１であり、

は、Ａ_ｉ，ｐが−１（Ｈ_−１）に等しい場合に値「１」となり、そうでない場合は「０」となる指示関数である。

が

である実施形態において、フェージング結果は、以下のように最大尤度フェージングパリティベクトルとして表現される目的関数を最適化することにより取得可能である。

ここで

は精製されたフェージングベクトルであり、一方

は推測されるフェージングベクトル結果であり、以下の通りである。

が

である実施形態において、フェージングベクトルは、以下のように全体目的関数を最適化することにより発見可能である。

であり、Ｈ_−１は位置ｉにおける接合エラーの状態であり、

は位置ｉにおいて当形態のエラーを生じる推定であり、

である。

いくつかの実施形態において、

は、位置ｉにおけるバリアントの種類の関数である。例えば、
は、遺伝子挿入または欠失を通して位置ｉにおけるバリアントが生じた場合には第１値が与えられ、他の手段（例えば一塩基多型）により位置ｉにおけるバリアントが生じた場合には別の値が与えられる。

（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）内の各Ｏ_ｉ，ｆは、断片ｆのバーコード化配列リードの各サブセットである（例えば同一バーコード配列を含む）。さらに、

である。ここで、Ｍは断片ｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示す。言い換えると、Ｈ_ｆ＝０はＨ_０にマッピングする断片ｆを表し、Ｈ_ｆ＝１はＨ_１にマッピングする断片ｆを表す。前述の３つの等式は、共通バーコードを有する配列リードの３つの可能性を規定する。配列リードはハプロタイプ０（第１ハプロタイプセットに由来する）、またはハプロタイプ１（第２ハプロタイプセットに由来する）である。あるいは配列リードはＭであり、これは、配列バーコードｆに対応付けられたパーティション内に含まれる参考配列の領域の両母系及び父系ゲノム物質が、配列リードＯ_ｑ，ｆを生じるパーティションに存在するという珍しい事例において起こる。

いくつかの実施形態において、１０個以上の配列リードが同一バーコードを有し、２０個以上の配列リードが同一バーコードを有し、３０個以上の配列リードが同一バーコードを有し、１００個以上の配列リードが同一バーコードを有し、または１０００個以上の配列リードが同一バーコードを有する。

いくつかの実施形態において、（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）内の各Ｏ_ｑ，ｆに対する３つの可能なハプロタイプ割り当ては、以下のように採点される。

ここで、

は、Ｈ_ｆ＝Ｍが起こる尤度または確率（Ｈ_ｆ＝Ｍの事前確率）を表す所定の分率値であり、

は、

が

である実施形態、または
が

である実施形態に対し、前述のように定義される。

いくつかの実施形態において、バリアントコールセットは、試験用核酸における複数の異型接合一塩基多型、異型接合挿入、または異型接合欠失を含む。

いくつかの実施形態において、ハプロタイプ第１セット（Ｈ＝０）は一有機体の母系ハプロタイプで構成され、ハプロタイプ第２セット（Ｈ＝１）は一有機体の父系ハプロタイプで構成される。

いくつかの実施形態において、複数のバーコードは、１０００個以上のバーコード、１０，０００個以上のバーコード、１００，０００個以上のバーコード、または１×１０^６個以上のバーコードを含む。いくつかの実施形態において、生物種はヒトである。

いくつかの実施形態において、複数のバリアントコールＡ_ｉ；ｐは、１０００個以上のバリアントコール、または１０，０００個以上のバリアントコールを含む。いくつかの実施形態において、複数の配列リードは、１０，０００個以上の配列リード、１００，０００個以上の配列リード、または１×１０^６個以上の配列リードを含む。

いくつかの実施形態において、Ｘは（ｘ）であり、ｘは長さｎの２進列であり、ｘにおける各値「０」は対応バリアントコールがハプロタイプ第１セット（Ｈ＝０）に由来することを示し、ｘにおける各値「１」は対応バリアントコールがハプロタイプ第２セット（Ｈ＝１）に由来することを示す。

いくつかの実施形態において、ハプロタイプ第１セット（Ｈ＝０）は単一母系ハプロタイプで構成され、ハプロタイプ第２セット（Ｈ＝１）は単一父系ハプロタイプで構成される。いくつかの実施形態において、ハプロタイプ第１セット（Ｈ＝０）は５個以上の母系染色体に対応する５個以上の母系ハプロタイプを含み、ハプロタイプ第２セット（Ｈ＝１）は５個以上の父系染色体に対応する５個以上の父系ハプロタイプを含む。

いくつかの実施形態において、同一断片ｆに由来する（かつ同一のそれぞれの配列バーコードを含む）配列リードサブセットは、１０個以上の配列リード、３０個以上の配列リード、または１００個以上の配列リードを含む。

いくつかの実施形態において、同一のそれぞれの配列リードを含む配列リードサブセットは、少なくとも長さ３０キロ塩基、少なくとも長さ４０キロ塩基、または長さ２０キロ塩基と６０キロ塩基の間である参照コンセンサス配列の断片ｆを表す。いくつかのこのような実施形態において、配列リードサブセット内のこのような配列リードはそれぞれ、２×３６ｂｐ、２×５０ｂｐ、２×７６ｂｐ、２×１００ｂｐ、２×１５０ｂｐ、または２×２５０ｂｐであり、用語２×Ｎｂｐは、配列リードが、不特定の長さに切り離された参照コンセンサス配列の長さＮ塩基対の２つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、２００〜１２００塩基対である。いくつかの実施形態において、配列リードサブセット内の各配列リードは、参照コンセンサス配列の少なくとも２５ｂｐ、少なくとも３０ｂｐ、少なくとも５０ｂｐ、少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも２５０ｂｐ、少なくとも５００ｂｐ、５００ｂｐ未満、４００ｂｐ未満、または３００ｂｐ未満を表す。

いくつかの実施形態において、全体目的関数のうちの１つが最適化される。いくつかの実施形態において、全体目的関数が最適化される。いくつかの実施形態において、階層的探索は、参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおけるＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当てに対しビーム探索法を使用することを含み、ｋはバリアントコールの各局所ブロックにおける第１バリアントであり、ｊはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当てに関する目的関数の各計算における目的関数のフェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前述の目的関数のうちの１つを計算することにより、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当てが発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される。さらに、いくつかの実施形態において、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックは、バリアントコールの局所ブロックごとの最適フェージング解を使用して積極的に接合され、これにより最適フェージング構成

の推定が取得される。いくつかの実施形態において、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックは、モンテカルロアルゴリズム、またはバリアントコールの局所ブロックごとの最適フェージング解を使用するシミュレートアニーリングもしくはボルツマン学習等の他の確率的探索を使用して接合される。例えばＤｕｄａｅｔａｌ．、２００１、ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ、第２版、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．、ＮｅｗＹｏｒｋを参照されたい。例えば確率的探索法を開示する目的で、当文献は参照により本明細書に組み込まれるものとする。

いくつかの実施形態において、フェーズ結果の精製にはさらに、最適フェージング構成
の推定における個別ｘ_ｉのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することが含まれる。

いくつかの実施形態において、バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の２０〜６０個のバリアントで構成される。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の３０〜８０個のバリアントで構成される。いくつかの実施形態において、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊのうちの１つの割り当てに対するビーム探索の繰り返しは、
の所定数の解以外を全て捨てる。いくつかの実施形態において、
の所定数の解は１０００個以下である。いくつかの実施形態において、
の所定数の解は５０００個以下である。

いくつかの実施形態において、生物種はヒトであり、試験用核酸試料は生体試料のゲノムを含む。いくつかの実施形態において、生物種は複数染色体生物種であり、試験用核酸試料は、複数染色体生物種内の複数の染色体を集合的に表す複数の核酸を含む。

いくつかの実施形態において、複数の配列リード

内の各配列リードの第２部分におけるバーコードは、セット｛１、・・・、１０２４｝から選択される、セット｛１、・・・、４０９６｝から選択される、セット｛１、・・・、１６３８４｝から選択される、セット｛１、・・・、６５５３６｝から選択される、セット｛１、・・・、２６２１４４｝から選択される、セット｛１、・・・、１０４８５７６｝から選択される、セット｛１、・・・、４１９４３０４｝から選択される、セット｛１、・・・、１６７７７２１６｝から選択される、セット｛１、・・・、６７１０８８６４｝から選択される、またはセット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する。いくつかの実施形態において、複数の配列リード内の各配列リードの第２部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。いくつかの実施形態において、オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎはセット｛４、・・・、２０｝から選択される整数である。いくつかの実施形態において、複数の配列リード内の配列リードの第２部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎはセット｛４、・・・、２０｝内の整数である。

いくつかの実施形態において、複数の配列リード内の同一バーコードを有する配列リードサブセットは、１０キロ塩基より大きい参照コンセンサス配列部分に対応する。いくつかの実施形態において、同一バーコードを有する配列リードサブセットは、２０キロ塩基より大きい参照コンセンサス配列部分に対応する。

本開示の別の態様は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを備えるコンピューティングシステムを提供する。１つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含む。試験用核酸試料は、ハプロタイプ第１セット（Ｈ＝０）及びハプロタイプ第２セット（Ｈ＝１）を含む。１つまたは複数のプログラムは、本開示において開示されるフェージング方法を実行する。

本開示の別の態様は、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法を提供する。試験用核酸試料は、ハプロタイプ第１セット（Ｈ＝０）及びハプロタイプ第２セット（Ｈ＝１）を含む。方法は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、複数のバリアントコールＡ_ｉ；ｐを取得することを含み、ｉは、生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ＝０に割り当て、ラベル１は各バリアントコールをＨ＝１に割り当てる。参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊのハプロタイプ割り当てに対し、ビーム探索法または同等の探索技術が使用され、ｋはバリアントコールの各局所ブロックにおける第１バリアントであり、ｊはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数のフェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される目的関数を計算することにより発見され、目的関数は、試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される。Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとにビーム探索が完了すると、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックは、バリアントコールの局所ブロックごとのフェージング解を使用して積極的に接合され、これにより生物種の一有機体のフェージング構成

が取得される。いくつかの実施形態において、方法はさらに、
における個別ｘ_ｉのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することを含む。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の２０〜６０個のバリアントで構成される。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の３０〜８０個のバリアントで構成される。いくつかの実施形態において、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊのうちの１つの割り当てに対するビーム探索の繰り返しは、
の所定数の解（例えば１０００個以下、５０００個以下等）以外を全て捨てる。

本開示の別の態様は、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの接合状態におけるエラーに対処する方法を提供する。試験用核酸試料は、ハプロタイプ第１セット（Ｈ_０）及びハプロタイプ第２セット（Ｈ_１）を含む。方法は、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得し、生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することを含む。ここで、ｉは参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は各バリアントコールをＨ_１に割り当て、ラベル−１は各バリアントコールを接合エラー状態Ｈ_−１に割り当てる。方法において、生体試料の複数の配列リード

が取得される。複数の配列リード内の各配列リード

は、参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第２部分とを備える。複数の配列リード内の各配列リード
は

である。ここで、（ｉ）ｎはＡ_ｉ；ｐ内のバリアントコールの数であり、（ｉｉ）各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）各配列リード
に対する各ラベル−１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_−１に割り当て、（ｖ）各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の対応バリアントコールが対象外であることを示す。方法において、フェージングベクトル結果

は、以下の全体目的関数を使用して、複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１、Ｈ_−１間のハプロタイプ割り当ての最適化により精製される。

であり、

は位置ｉにおいてＨ_−１を生じる推定であり、

であり、

は精製されたフェージングベクトル結果であり、Ｃは定数であり、
は推測されるフェージングベクトル結果であり、（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、複数のバーコード内の同一のそれぞれのバーコードを含む配列リードサブセットにおいて観察される複数のバリアントコールＡ_ｉ；ｐ内のＮ個のバリアントコールの各サブセットである。

いくつかの実施形態において、

であり、Ｍは、各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、ｉは同一のそれぞれのバーコードを含む配列リードサブセットの観察されるＮ個のバリアントコールの各サブセットにおけるｉ番目のバリアントであり、ｒは同一のそれぞれのバーコードを含む配列リードサブセットの合計であり、

は同一のそれぞれのバーコードを含む配列リードサブセットのｒ番目の配列リードＳ_ｒ内の位置ｉにおける塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合

の値は１となり、それらが一致しない場合
の値は０となり、

は同一のそれぞれのバーコードを含む配列リードサブセットのｒ番目の配列リードＳ_ｒ内の位置ｉにおける塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は１となり、それらが一致する場合
の値は０となり、

はＡ_ｉ，ｐがＨ_−１に等しい場合に値１となり、そうでない場合は値０となる指示関数であり、Ｑ_ｒは参照コンセンサス配列内のｉの位置におけるリード塩基のＳ_ｒに関する品質値である。

いくつかの実施形態において、複数のバリアントコールは、試験用核酸における複数の異型接合一塩基多型、異型接合挿入、または異型接合欠失を含む。いくつかの実施形態において、ハプロタイプ第１セット（Ｈ_０）は一有機体の母系ハプロタイプで構成され、ハプロタイプ第２セット（Ｈ_１）は一有機体の父系ハプロタイプで構成される。

いくつかの実施形態において、複数のバーコードは、１０００個以上のバーコードを備える。いくつかの実施形態において、複数のバーコードは、１０，０００個以上のバーコードを備える。いくつかの実施形態において、複数のバーコードは、１００，０００個以上のバーコードを備える。いくつかの実施形態において、複数のバーコードは、１×１０^６個以上のバーコードを備える。いくつかの実施形態において、生物種はヒトである。いくつかの実施形態において、複数のバリアントコールＡ_ｉ；ｐは、１０００個以上のバリアントコール、または１０，０００個以上のバリアントコールを含む。いくつかの実施形態において、複数の配列リードは、１０，０００個以上の配列リード、１００，０００個以上の配列リード、または１×１０^６個以上の配列リードを含む。

いくつかの実施形態において、

は（ｘ）であり、ｘは長さｎの２進列であり、ｘにおける各値０は対応バリアントコールがハプロタイプ第１セット（Ｈ_０）に由来することを示し、ｘにおける各値１は対応バリアントコールがハプロタイプ第２セット（Ｈ_１）に由来することを示す。

いくつかの実施形態において、ハプロタイプ第１セット（Ｈ_０）は単一母系ハプロタイプで構成され、ハプロタイプ第２セット（Ｈ_１）は単一父系ハプロタイプで構成される。

いくつかの実施形態において、ハプロタイプ第１セット（Ｈ_０）は５個以上の母系染色体に対応する５個以上の母系ハプロタイプを含み、ハプロタイプ第２セット（Ｈ_１）は５個以上の父系染色体に対応する５個以上の父系ハプロタイプを含む。

いくつかの実施形態において、同一のそれぞれのバーコードｆを含む配列リードサブセットは、１０個以上の配列リードを有する。いくつかの実施形態において、同一のそれぞれのバーコードｆを含む配列リードサブセットは、３０個以上の配列リードを有する。いくつかの実施形態において、同一のそれぞれのバーコードｆを含む配列リードサブセットは、１００個以上の配列リードを有する。いくつかの実施形態において、同一のそれぞれのバーコードｆを含む配列リードサブセットは、参照コンセンサス配列の少なくとも３０キロ塩基、または参照コンセンサス配列の少なくとも４０キロ塩基を表す。

いくつかの実施形態において、精製は
に対する階層的探索を使用して全体目的関数を最適化する。いくつかの実施形態において、階層的探索は、参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおけるＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当てに対しビーム探索法を使用することであって、ｋはバリアントコールの各局所ブロックにおける第１バリアントであり、ｊはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数のフェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される目的関数を計算することにより発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される、バリアントコールの各局所ブロックにおけるＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当てに対しビーム探索法を使用することと、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを、バリアントコールの局所ブロックごとの最適フェージング解を使用して積極的に接合し、これにより最適フェージング構成

の推定を取得することとを含む。いくつかの実施形態において、フェーズ結果の精製にはさらに、最適フェージング構成
の推定における個別ｘ_ｉのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することが含まれる。

いくつかの実施形態において、複数の配列リード

内の各配列リードの第２部分におけるバーコードは、セット｛１、・・・、１０２４｝から選択される、セット｛１、・・・、４０９６｝から選択される、セット｛１、・・・、１６３８４｝から選択される、セット｛１、・・・、６５５３６｝から選択される、セット｛１、・・・、２６２１４４｝から選択される、セット｛１、・・・、１０４８５７６｝から選択される、セット｛１、・・・、４１９４３０４｝から選択される、セット｛１、・・・、１６７７７２１６｝から選択される、セット｛１、・・・、６７１０８８６４｝から選択される、またはセット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する。

いくつかの実施形態において、複数の配列リード内の各配列リードの第２部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。いくつかの実施形態において、オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎはセット｛４、・・・、２０｝から選択される整数である。

いくつかの実施形態において、複数の配列リード内の配列リードは、１０キロ塩基より大きい、または２０キロ塩基より大きい参照コンセンサス配列の部分に対応する。

いくつかの実施形態において、複数のバリアントコールは、複数の配列リードから取得される。いくつかの実施形態において、複数の配列リードは、複数のバーコード化オリゴ被覆ゲルビーズから取得され、試験用核酸試料は５０ｎｇ以下である。いくつかの実施形態において、複数のバーコード化オリゴ被覆ゲルビーズは、１０，０００個のビーズを含む。いくつかの実施形態において、複数のバーコード化オリゴ被覆ゲルビーズは、５０，０００個のビーズを含む。いくつかの実施形態において、試験用核酸試料は２５ｎｇ以下、１０ｎｇ以下、５ｎｇ以下、または２．５ｎｇ以下である。

いくつかの実施形態において、複数の配列リード

は、１０分以内の複数のバーコードの割り当てにより取得される。いくつかの実施形態において、複数の配列リード
は、２０分以内の複数のバーコードの割り当てにより取得される。

本開示はさらに、コンピュータにより実行されるように構成され、かつ開示される方法のうちのいずれかを実行する命令を含む１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。従って、これらの方法、システム、及び非一時的コンピュータ可読記憶媒体は、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出するための改善された方法を提供する。

従って、これらの方法、システム、及び非一時的コンピュータ可読記憶媒体は、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出し、このようなデータをフェージングするための改善された方法を提供する。

文献の援用
当明細書において挙げられる全ての刊行物、特許、及び特許出願は、個々の刊行物、特許、または特許出願が参照により組み込まれるよう具体的かつ個別に示されるのと同程度に、その全体が参照により本明細書に組み込まれるものとする。

本明細書において開示される実施態様は、限定のためではなく実施例として、添付図面の図で例示される。同様の参照番号は、図面を通して対応部分に言及する。方法フローチャートを含む図において、破線のボックスは、例示的実施形態を示す。

いくつかの実施態様による、コンピューティング装置を示す例示的ブロック図である。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。いくつかの実施態様による、例示的構成概念を示す。本開示のいくつかの実施形態による、配列リードのビンを特定する方法を示す。本開示のいくつかの実施形態による、ビン情報を示す。いくつかの実施形態による、試験用核酸（例えば染色体ＤＮＡ）と、より大きい試験用核酸の異なる断片と、断片の配列リードとの関係性を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。いくつかの実施態様による、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法を示す。本開示の実施形態による、バーコード化ライブラリ作成プロセスの概要を示す。図における各点がリード対を表し、かつ横線によりつながれるこのようなリード対のグループが１００，０００個を超えるバーコードのプール内の共通バーコードを共有する、本開示による連結配列リードを示す。本開示のシステム及び方法を用いた２つの別個の配列決定実験（対象核酸の２つの異なるソースに由来する）におけるメトリクスを提供する。先行技術による、シスとトランスの突然変異を示す。Ｏ_ｑ，ｆは分子ｆからのバリアントｉの観察であり、Ａ_ｉ，ｐはバリアントｉにおけるフェーズｐ上のアレルであり、Ｘ_ｉはバリアントｉのフェージングであり、Ｓｒ＝Ａ_ｉ，ｐは配列リードｒがアレルＡ_ｉ，ｐと一致することを意味し、αはアレル衝突確率である、本開示のシステム及び方法の実施形態によるフェージング目的関数を示す。本開示のシステム及び方法の実施形態による、ビーム探索法を示す。本開示のフェージングの実施例（列「ＮＡ１２８７８ＷＥＳ」）が従来のフェージング（列ＮＡ１２８７８ＷＧＳ、ＨｕＲｅｆ１ＷＧＳ、及びＮＡ２０８４７ＷＧＳ）と比較される、本開示のシステム及び方法の実施形態によるフェージングのフェーズメトリクスを示す。各投入分子のハプロタイプ割り当てにより分割された連結リードが構造バリアントのフェーズ化構造を明らかにする、本開示のシステム及び方法の実施形態によるフェーズ化構造バリアントコールを示し、縦線は構造バリアントコールのブレークポイントを示す。本開示のシステム及び方法の実施形態を用いてＮＡ１２８７８においてコールされた欠失を示す。本開示の実施形態により、ＰＣＲ重複率を、開示されるシステム及び方法（１０Ｘ）と、ＴｒｕＳｅｑ＋ＡＧＩＬＥＮＴＳＳデータのシステム及び方法とで、様々な投入量において比較する。バリアントコール性能を、開示されるシステム及び方法（１０Ｘ）と、ＴｒｕＳｅｑ／ＳＳのシステム及び方法とで、様々な投入量において比較する。開示されるシステム及び方法を用いた様々な試料実験の配列メトリクスを提供する。本開示のシステム及び方法を用いたアノテーション付き遺伝子融合の検出を示す。本開示の実施形態による、ＨＣＣ３８三種陰性乳癌細胞株における腫瘍特異遺伝子融合の信頼性の高い検出を示す。本開示のシステム及び方法を用いた複雑な再配列の解明を示す。本開示のシステム及び方法を用いた複雑な再配列の解明を示す。本開示のいくつかの実施形態による、遺伝子融合イベントのハプロタイプフェージングを示す。全ゲノム配列連結リード及びフェージングがＨＣＣ１１４３三種陰性乳癌における複雑欠失兼アレル喪失イベントを明らかにする方法を示す。全ゲノム配列連結リード及びフェージングがＨＣＣ１１４３三種陰性乳癌における欠失兼アレル喪失複合イベントを明らかにする方法を示す。本開示の実施形態による、長イントロンの特別ベイトが存在する全エクソーム配列でＢＣＲ−ＡＢＬを検出する概要を示す。本開示のシステム及び方法を用いて約１ｎｇのＫＵ８１２ｇＤＮＡの投入から１０ＸＧｅｍＣｏｄｅライブラリが生成される方法を示す。本開示のシステム及び方法を用いて約１ｎｇのＫＵ８１２ｇＤＮＡの投入から１０ＸＧｅｍＣｏｄｅライブラリが生成される方法を示し、ハイブリッドキャプチャは、ＡＢＬ１のエクソン１とエクソン２との間の１００ｋｂを超えるイントロン領域にマッピングする追加超塩基長ＤＮＡベイトを伴い（Ｅｘｏｍｅ＋）、または伴わず（Ｅｘｏｍｅ）、標準ＩＤＴＥｘｏｍｅパネルにより行われている（平均ベイト間隔は２ｋｂ以下）。図２７から２９までにおいて説明される０．２ｆｍｏｌのイントロンベイトを伴う実験とイントロンベイトを伴わない実験の構造バリアント統計値を要約する。

本開示は一般に、遺伝子配列データの分析に使用するための、特に生体試料から取得される試験用核酸の配列データにおける構造変異検出（例えば欠失、重複、コピー数バリアント、挿入、逆位、転座、長末端反復（ＬＴＲ）、短末端反復（ＳＴＲ）、及び様々な他の有用特性）並びにハプロタイプフェージングのための、方法、プロセス、特にコンピュータ実施プロセス及び非一時的コンピュータプログラム製品を提供する。
ここで実施態様の詳細が図に関連して説明される。

図１は、いくつかの実施態様による、構造バリアント検出及びフェージングシステム１００を例示するブロック図である。いくつかの実施態様における装置１００は、１つまたは複数の処理装置ＣＰＵ１０２（複数可）（プロセッサとも称される）と、１つまたは複数のネットワークインタフェース１０４と、ユーザインタフェース１０６と、メモリ１１２と、これらのコンポーネントを相互接続する１つまたは複数の通信バス１１４とを含む。通信バス１１４は任意で、システムコンポーネント間を相互接続し、通信を制御する回路（時にチップセットと呼ばれる）を含む。メモリ１１２は通常、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、他のランダムアクセスソリッドステートメモリ装置、または所望の情報を記憶するのに使用可能なその他の媒体等の高速ランダムアクセスメモリを含み、そして任意で、１つまたは複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性ソリッドステート記憶装置等の不揮発性メモリを含む。メモリ１１２は任意で、ＣＰＵ（複数可）１０２から遠隔に配置された１つまたは複数の記憶装置を含む。メモリ１１２、あるいはメモリ１１２内の不揮発性メモリ装置（複数可）は、非一時的コンピュータ可読記憶媒体を備える。いくつかの実施態様において、メモリ１１２、あるいは非一時的コンピュータ可読記憶媒体は、下記のプログラム、モジュール、及びデータ構造、またはそれらのサブセットを記憶する。すなわち、様々な基本システムサービスを処理するため、及びハードウェア依存タスクを実行するためのプロシージャを含む任意のオペレーティングシステム１１６と、装置１００と他の装置または通信ネットワークとを接続するための任意のネットワーク通信モジュール１１８（または命令）と、生物種の一有機体に由来する遺伝子試料における構造変異を特定するための構造変異特定サブモジュール１２２と、遺伝子試料の各配列リードのハプロタイプを特定するためのフェージングサブモジュール１２４とを含む、配列リードを処理するための任意の配列リード処理モジュール１２０と、各データセットが生物種の一有機体に由来する遺伝子試料を使用して取得される１つまたは複数の核酸配列データセット１２６と、複数の配列リード内の各配列リードが試験用核酸６０２のサブセットに対応する少なくとも第１部分１３０と、各配列リードのバーコードを符号化する第２部分１３２とを備える、複数の配列リード１２８と、複数のビン内の各ビン１４０が試験用核酸６０２の異なる部分１４２を表し、さらに試験用核酸の配列リードセット１４４に対応付けられる、複数のビンと、要約モジュール１５０と、フェーズ可視化モジュール１５２と、構造バリアント（可視化）モジュール１５４と、リード可視化モジュール１５６とを含む、核酸配列データにおける構造変異及びフェージング情報を可視化するためのハプロタイプ可視化ツール１４８である。

いくつかの実施態様において、ユーザインタフェース１０６は、ユーザがシステム１００及びディスプレイ１０８と対話するための入力装置（例えばキーボード、マウス、タッチパッド、トラックパッド、及び／またはタッチスクリーン）１００を含む。

いくつかの実施態様において、上記の特定された構成要素のうちの１つまたは複数は、前に挙げられたメモリ装置のうちの１つまたは複数に記憶され、かつ前述の機能を実行するための命令セットに対応する。上記の特定されたモジュールまたはプログラム（例えば命令セット）は、別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要はなく、従ってこれらのモジュールの様々なサブセットは、様々な実施態様において組み合わせあるいは再編成され得る。いくつかの実施態様において、メモリ１１２は任意で、上記に特定されたモジュール及びデータ構造のサブセットを記憶する。さらにいくつかの実施形態において、メモリは、前述されていない追加モジュール及びデータ構造を記憶する。いくつかの実施形態において、上記の特定された構成要素のうちの１つまたは複数は、システム１００が必要に応じてそのようなデータの全てまたは一部を取得可能であるようにシステム１００によりアドレス可能な、システム１００のもの以外のコンピュータシステムに記憶される。

図１は「構造変異検出及びフェージングシステム１００」を示すが、当図は、本明細書において説明される実施態様の構造概要よりも、コンピュータシステムに存在し得る様々な特徴の機能的説明を意図する。実際に、当業者により認識されるように、別個に示されるアイテムは結合可能であり、いくつかのアイテムは分離可能である。

パートＡ、構造変異
図２は、一生体試料から取得される試験用核酸において起こる構造変異を特定する方法（２０２）を示すフローチャートである。いくつかの実施形態において、方法は、いくつかの実施形態による、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される（２０４）。

複数の配列リードの取得
開示されるシステム及び方法によれば、複数の配列リード１２８が試験用核酸６０２を使用して取得される（２０６）。このような配列リードは最終的に、核酸配列データセット１２６の基礎を形成する。複数の配列リード内の各配列リード１２８は、試験用核酸のサブセットに対応する第１部分１３０と、各配列リードのバーコードを符号化する第２部分１３２とを備える。バーコードは、試験用核酸の配列データに依存しない。言い換えると、バーコードは、試験用核酸の配列データに由来しない、または試験用核酸の配列データの機能ではない。いくつかの事例において、配列リードは本明細書において、次世代配列（ＮＧＳ）リード対と称される。

いくつかの実施形態において、複数の配列リード内の第１配列リードは、２×３６ｂｐ、２×５０ｂｐ、２×７６ｂｐ、２×１００ｂｐ、２×１５０ｂｐ、または２×２５０ｂｐである試験用核酸のサブセットに対応し、用語２×Ｎｂｐは、配列リードが、不特定の長さに切り離された１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の長さＮ塩基対の２つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、２００〜１２００塩基対である。いくつかの実施形態において、複数の配列リード内の第１配列リードは、１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の少なくとも２５ｂｐ、少なくとも３０ｂｐ、少なくとも５０ｂｐ、少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも２５０ｂｐ、少なくとも５００ｂｐ、５００ｂｐ未満、４００ｂｐ未満、または３００ｂｐ未満を表す。より一般的に、いくつかの実施形態において取得される配列リード１２８は、少なくとも約１０ｋｂｐ、少なくとも約２０ｋｂｐ、または少なくとも約５０ｋｂｐのＮ５０によるコンティグにアセンブリされる。配列リードは、より好ましい態様において少なくとも約１００ｋｂｐ、少なくとも約１５０ｋｂｐ、少なくとも約２００ｋｂｐのコンティグに、多くの事例において少なくとも約２５０ｋｂｐ、少なくとも約３００ｋｂｐ、少なくとも約３５０ｋｂｐ、少なくとも約４００ｋｂｐのコンティグに、いくつかの事例において少なくとも約５００ｋｂｐ以上のコンティグにアセンブリされる。さらに別の実施形態において、２００ｋｂｐを超す、３００ｋｂｐを超す、４００ｋｂｐを超す、５００ｋｂｐを超す、１Ｍｂを超す、または２Ｍｂさえも超すＮ５０によるコンティグにフェーズ化された配列リードが、本開示に従って取得される。Ｍｉｌｌｅｒｅｔａｌ．、２０１０、“Ａｓｓｅｍｂｙａｌｇｏｒｉｔｈｍｓｆｏｒｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｄａｔａ”Ｇｅｎｏｍｉｃｓ９５、ｐｐ．３１５‐３２７を参照されたい。Ｎ５０及び従来のコンティグアセンブリアルゴリズムの定義に関して、当文献は参照により本明細書に組み込まれるものとする。

いくつかの実施形態において、図６に示されるように、複数の配列リード１２８を取得するために、より大きな連続核酸６０２（試験用核酸、例えば染色体ＤＮＡ）が断片３０６を形成するように断片化され、そしてこれらの断片は、個別の区画またはパーティションに区画化またはパーティション化される（パーティションとして本明細書において互換的に称される）。いくつかの実施形態において、試験用核酸６０２は、ヒト等の複数染色体有機体のゲノムである。いくつかの実施形態において、１０個を超える、１００個を超える、１０００個を超える、１０，０００個を超える、１００，０００個を超える、１×１０^６個を超える、または５×１０^６個を超えるパーティションに対応する、１０個を超える、１００個を超える、１０００個を超える、１０，０００個を超える、１００，０００個を超える、１×１０^６個を超える、または５×１０^６個を超える配列リードセットが取得される。従って図６は、より大きい連続核酸６０２と、より大きい連続核酸の異なる断片３０６と、断片の配列リード１２８との関係性を示す。通常、１〜２５０個の断片６０４、５〜５００個の断片６０４、または１０〜１０００個の断片６０４が、それぞれ別個のパーティションにパーティション化される。任意のイベントにおいて、単一パーティションにおける断片８０４が任意の明らかなオーバーラップ配列を有することがあまりないように、十分少ない数の断片８０４が同一パーティションにパーティション化される。各断片８０４の配列リード７２８が構成される。典型的実施形態において、配列リード１２８は、自動配列決定装置において配列決定可能なように、その長さが短い（例えば１０００塩基未満）。パーティション内の各配列リード１２８は、より大きい連続核酸６０２の配列に依存しないバーコードを形成し、かつ複数のパーティションのうち各配列リードが形成されたパーティションを特定する、共通第２部分１３２を含む。

いくつかの実施形態において、試験用核酸は、ヒト等の複数染色体有機体のゲノムである。いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸は、複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む（２０８）。

各パーティションは、他のパーティションのコンテンツから自身のコンテンツが分離された状態を維持する。本明細書において使用されるように、パーティションは、例えばウェル、チューブ、マイクロもしくはナノウェル、スルーホール等の様々な異なる形態を含み得るコンテナまたはベッセルを指す。しかしながら、好ましい態様において、パーティションは流体流内で流動性を有する。いくつかの実施形態において、これらのベッセルは、例えば内部流体中心もしくは中核を囲む外防壁を有する、あるいはその母材内に物質を搭載及び／または保持することが可能な多孔質母材を有するマイクロカプセルまたはマイクロベシクルで構成される。しかしながら、好ましい態様において、これらのパーティションは、例えば油相といった非水性連続相内に、水性流体の液滴を含む。様々な異なる好適なベッセルが、例えば２０１３年８月１３日に出願された米国特許出願第１３／９６６，１５０号において説明され、その全体は参照により本明細書に組み込まれるものとする。同様に、非水性または油性連続相における安定した液滴を作るためのエマルジョンシステムが、例えば公開米国特許出願第２０１０−０１０５１１２において詳しく説明され、その全体は参照により本明細書に組み込まれるものとする。特定の実施形態において、マイクロ流体チャネルネットワークが特にパーティションを生成するのに適している。このようなマイクロ流体装置の実施例には、２０１４年４月４日に出願された米国特許仮出願第６１／９７７，８０４号において詳しく説明されるものが含まれ、当仮出願の開示内容全体は、全ての目的で参照により本明細書に組み込まれるものとする。細胞の水溶液混合物が非水性流体へ押し通し出される多孔膜を含む個々の細胞のパーティション化に、代替機構も採用され得る。このようなシステムは一般に、例えばＮａｎｏｍｉ，Ｉｎｃから入手可能である。

エマルジョンにおける液滴の事例において、試験用核酸断片の個別のパーティションへのパーティション化は一般に、試料物質を含む水性液滴が流動パーティション化流体内で作られるように、水性の試料含有流を、例えばフッ素油といったパーティション化流体の非水性流も流れる合流点へ流し込むことにより達成され得る。後述されるように、例えば液滴といったパーティションは通常、共同パーティション化されたバーコードオリゴヌクレオチドも含む。

任意の特定パーティション内の試料物質の相対量は、例えば水性流内の試験用核酸断片の濃度、水性流及び／または非水性流の流量等を含むシステムの様々な異なるパラメータを制御することにより調節され得る。本明細書において説明されるパーティションは多くの場合、１０００ｐＬ未満、９００ｐＬ未満、８００ｐＬ未満、７００ｐＬ未満、６００ｐＬ未満、５００ｐＬ未満、４００ｐＬ未満、３００ｐＬ未満、２００ｐＬ未満、１００ｐＬ未満、５０ｐＬ未満、２０ｐＬ未満、１０ｐＬ未満、または１ｐＬ未満ですらある全体体積を有する特性を持つ。ビーズと共に共同パーティション化された場合、パーティション内の試料流体体積は、前述の体積の９０％未満、８０％未満、７０％未満、６０％未満、５０％未満、４０％未満、３０％未満、２０％未満、または前述の体積の１０％未満ですらあり得ることが理解されよう。いくつかの事例において、低反応体積のパーティションの使用は、少量の開始反応物、例えば投入試験用核酸断片で、反応を実行する際、特に有利である。低投入量核酸を有する試料を分析する方法及びシステムが、２０１４年６月２６日に出願された米国特許仮出願第６２／０１７，５８０号において紹介され、当仮出願の開示内容全体は、参照により本明細書に組み込まれるものとする。

一度試験用核酸断片３０６がそれぞれのパーティションに取り入れられると、これらの試験用核酸断片３０６の特性評価の際、それらがそれぞれのパーティションに由来するものとして属性付けられ得るように、パーティション内の試験用核酸断片３０６に一意的バーコードが一般に提供される。いくつかの実施形態において、特定の区画内に含まれる試料核酸に対して、特にパーティションに元より預託され得る比較的長く伸びた連続試料核酸に対して、例えば核酸配列情報といった特性の後からの属性付けを可能にするために、区画化またはパーティション化された試験用核酸断片を保持するパーティションに対し、このような一意的バーコードが、事前に、後に、または同時に給付される。

従って、断片６０４は通常、一意的バーコード（例えばバーコード配列）で共同パーティション化される。特に好ましい態様において、一意的バーコードは、核酸バーコード配列を含み、かつパーティション内の試験用核酸断片に結合されるオリゴヌクレオチドの形態で提供される。所定のパーティション内のオリゴヌクレオチド間では、そこに含まれる核酸バーコード配列は同じであるが、異なるパーティション間では、オリゴヌクレオチドは異なるバーコード配列を有することが可能であり、それが望ましくあるように、オリゴヌクレオチドはパーティション化される。いくつかの実施形態において、２つ以上の異なるバーコード配列が所定のパーティションに存在するが、好ましい実施形態においては、１つの核酸バーコード配列のみが所定のパーティションに対応付けられる。

核酸バーコード配列は通常、オリゴヌクレオチドの配列内に６個〜約２０個以上のヌクレオチドを含む。いくつかの実施形態において、これらのヌクレオチドは、完全に連続する、すなわち単一に伸びた隣接ヌクレオチドである。代替実施形態において、これらは、１個または複数のヌクレオチドに分離された２個以上の別々のサブ配列に分離される。通常、分離されたサブ配列は、約４個〜約１６個の中間ヌクレオチドに分離される。

試験用核酸６０２は、元の試験用核酸６０２の連続核酸分子３０６の比較的長い断片もしくは伸長に含まれるパーティション内に核酸が存在するように、通常パーティション化される。図６に示されるように、これらの断片３０６は通常、例えば全染色体、エクソーム、または他の大ゲノム断片といった分析対象となる試験用核酸全体のいくつかのオーバーラップ断片を表す。いくつかの実施形態において、試験用核酸６０２は、全ゲノム、個々の染色体、エクソーム、アンプリコン、または様々な異なる関心核酸のうちのいずれかを含む。通常、パーティション化された試験用核酸６０２の断片３０６は、１ｋｂｐより長く、５ｋｂｐより長く、１０ｋｂｐより長く、１５ｋｂｐより長く、２０ｋｂｐより長く、３０ｋｂｐより長く、４０ｋｂｐより長く、５０ｋｂｐより長く、６０ｋｂｐより長く、７０ｋｂｐより長く、８０ｋｂｐより長く、９０ｋｂｐより長く、または１００ｋｂｐさえより長い。

試験用核酸６０２はまた通常、所定のパーティションが非常に低い確率で開始試験用核酸６０２のオーバーラップ断片３０６を２個含むレベルでパーティション化される。これは通常、パーティション化プロセス中に低投入量及び／または低濃度の試験用核酸６０２を提供することにより達成される。その結果、好ましい事例において、所定のパーティションは、開始試験用核酸６０２の長いがオーバーラップしていない断片３０６をいくつか含む。異なるパーティション内の核酸断片３０６はその後、一意的バーコードに対応付けられ、いずれかの所定のパーティションに含まれる核酸は同一の一意的バーコードを保有するが、異なるパーティションは異なる一意的バーコードを含む。さらに、パーティション化ステップにおいて試料成分は非常に小さい体積のパーティションまたは液滴に割り当てられることから、上述のような所望する割り当てを達成するためには、より大きい体積のプロセスで求められるように、例えばチューブ、またはマルチウェルプレートのウェルにおいて、試料の実質的希釈を行う必要がないことが理解されよう。さらに、本明細書において説明されるシステムはこのようなハイレベルなバーコード多様性を採用するため、前に提示されたように、たくさんの数のゲノム等価物に多様なバーコードを割り当てることが可能である。いくつかの実施形態において、ゲノム：（バーコード種）の比がおよそ１：５０以下、１：１００以下、１：１０００以下、またはさらに小さい比となるように、同時にたくさんの数のゲノム（例えばおよそ１アッセイあたり１００個を超えるゲノム、１アッセイあたり５００個を超えるゲノム、または１アッセイあたり１０００個以上のゲノム）をロード可能なように、同時にさらにゲノムごとにはるかに向上したバーコード多様性を提供するように、１０，０００、１００，０００、５００，０００個等を超える多様なバーコードの種類が使用される。ここで、このようなゲノムはそれぞれ、試験用核酸の実施例である。

図３ＡのパネルＢを参照すると、前述のパーティション化は多くの場合、試験用核酸を含む試料を、パーティション化ステップの前にビーズ３０８に遊離可能に結合されたオリゴヌクレオチドタグ３０２（バーコード１３２を含む）のセットと組み合わせることで、実行される。オリゴヌクレオチド３０２は、少なくともプライマー領域３１６とバーコード１３２領域とを有し得る。所定のパーティション内のオリゴヌクレオチド３０２間では、バーコード領域１３２は実質的に同一のバーコード配列であるが、異なるパーティション間では、バーコード領域は大抵の場合異なるバーコード配列である。いくつかの実施形態において、プライマー領域３１６は、パーティションに含まれる試料内の断片３０６をプライム化するために使用されるＮ塩基長（ランダムなＮ塩基長、または特定の配列を対象とするように設計されたＮ塩基長）である。いくつかの事例において、Ｎ塩基長が特定の配列を対象とするように設計される場合、プライマー領域３１６は、特定の染色体（例えばヒト染色体１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、Ｘ、またはＹ）、または例えばエクソームもしくは他の標的領域といった染色体の領域を対象とするように設計される。いくつかの事例において、Ｎ塩基は、疾患または異常（例えば癌）に対応付けられる遺伝子または領域等、特定の遺伝子または遺伝子領域を対象とするように設計される。いくつかの事例において、Ｎ塩基長は、特定の構造変異を対象とするように設計される。パーティション内で、試験用核酸断片３０６を断片の長さに沿った異なる場所でプライム化するために、プライマー配列３１６（例えばＮ塩基長）を使用して増幅反応が行われる。増幅の結果、各パーティションは、同一または略同一バーコードに属し、かつ各パーティション内の核酸のより小さいオーバーラップ断片を表す、核酸６０２の増幅産物を含む。そのためバーコード１３２は、核酸セットが同一のパーティションに由来する、従って同一の試験用核酸断片３０６に由来する可能性もあることを示すマーカーとして機能する。いずれかの所定のパーティション内には、通常いくつかの断片３０６が存在することが理解されよう。それにもかかわらず、典型的実施形態において、同一のパーティション内に存在する断片３０６は通常いずれの顕著なオーバーラップも有さないため、増幅した配列リードをいずれかの所定のパーティション内の正しい断片３０４に局所化することが可能である。増幅に続いて、増幅された核酸は、プールされ、配列リードを形成するために配列決定され、配列アルゴリズムを使用してアラインされる。より短い配列リードは、それらの対応付けられたバーコード配列のおかげで、試験用核酸６０２の単一の長い由来断片にアラインかつ属性付けが行われ得るため、その配列上の特定されたバリアントは全て、試験用核酸６０２の単一由来断片３０６及び単一由来染色体に属性付けが可能である。その上、複数の長い断片３０６にわたる複数の共同配置バリアントをアラインすることにより、染色体寄与を特徴付けることがさらに可能である。従って、特定の遺伝子バリアントのフェージングに関する結論が描かれ得る。このような情報は、通常同一の核酸ストランドまたは異なる核酸ストランドに属する遺伝子バリアントの特定セットであるハプロタイプを特定するために有用であり得る。さらに、追加または代替の構造バリアントが特定される。

いくつかの実施形態において、図３Ａを参照すると、共同パーティション化オリゴヌクレオチドタグ３０２は、バーコード配列１３２及びプライマー領域配列３１６に加えて、機能配列も含む。例えば、いくつかの実施形態において、共同パーティション化オリゴヌクレオチドタグ３０２は、例えば配列の存在の特定のため、もしくはバーコード化核酸をプルダウンするために、対応バーコード配列、配列プライマー、ハイブリダイゼーションもしくはプローブ配列を結合させる一方、パーティション３０４内の試験用核酸断片３０６を増幅する、標的もしくはランダム／汎用増幅プライマー配列といった、パーティション化核酸の処理において有用な他の機能配列、あるいは多数の他の可能性のある機能配列のうちのいずれかも含む。例えば２０１４年２月７日に出願された米国特許出願第６１／９４０，３１８号、２０１４年５月９日に出願された米国特許出願第６１／９９１，０１８号、及び２０１４年６月２６日に出願された米国特許出願第１４／３１６，３８３号（代理人整理番号４３４８７−７０８．２０１）、並びに２０１４年２月７日に出願された米国特許出願第１４／１７５，９３５号において説明される、例えば試料物質を伴う、オリゴヌクレオチドと、対応バーコードと、他の機能配列との共同パーティション化に関する開示を参照されたい。当出願の開示内容全体は、参照により本明細書に組み込まれるものとする。

１つの例示的プロセスにおいて、ビーズが提供され、このようなビーズはそれぞれ、ビーズに遊離可能に結合された前述のオリゴヌクレオチドを多数含む。このような実施形態において、特定のビーズに結合されたオリゴヌクレオチドの全ては同一の核酸バーコード配列を含むが、使用されるビーズの集団にわたって、数々の多様なバーコード配列が表される。通常、ビーズの集団は、少なくとも１０００個の異なるバーコード配列、少なくとも１０，０００個の異なるバーコード配列、少なくとも１００，０００個の異なるバーコード配列、またはいくつかの事例において少なくとも１，０００，０００個の異なるバーコード配列を含む多様バーコード配列ライブラリを提供する。さらに、各ビーズには通常、多数の結合オリゴヌクレオチド分子が提供される。特に、単一のビーズ上でバーコード配列を含むオリゴヌクレオチドの分子の数は、少なくとも約１０，０００個のオリゴヌクレオチド、少なくとも１００，０００個のオリゴヌクレオチド分子、少なくとも１，０００，０００個のオリゴヌクレオチド分子、少なくとも１００，０００，０００個のオリゴヌクレオチド分子、並びにいくつかの事例においては少なくとも１０億個のオリゴヌクレオチド分子であり得る。

いくつかの実施形態において、オリゴヌクレオチドは、ビーズに対する特定の刺激の適用により、遊離可能である。いくつかの事例において、刺激は、例えば感光性結合の開裂によりオリゴヌクレオチドを遊離させ得る光刺激である。いくつかの事例においては、熱刺激が使用され、ビーズ環境の温度の上昇により、ビーズからオリゴヌクレオチドの結合開裂もしくは他の遊離がもたらされる。いくつかの事例においては、ビーズに対するオリゴヌクレオチドの結合を開裂する、あるいはビーズからオリゴヌクレオチドの遊離をもたらす、化学的刺激が使用される。

いくつかの実施形態において、単一ビーズ及び単一試料が個別のパーティション内に含まれるように、結合オリゴヌクレオチドタグ３０２を含むビーズは、個別の試料と共に共同パーティション化される。いくつかの事例において、単一ビーズパーティションが所望される場合、占有済パーティションが主に単一のビーズで占有されていることを確実にするために、パーティションは平均して各パーティションに１個未満のビーズを含むように流体の相対流量を制御することが望ましくあり得る。同様に、いくつかの実施形態において、流量を制御して、高い割合のパーティションが占有済みになるようにし、例えば僅かな割合の非占有パーティションのみを許容する。より好ましい態様において、単一占有済パーティションの所望数が、非占有パーティションの特定レベル未満であり、複数占有済パーティションの特定レベル未満であることを確実にするために、流動及びチャネルアーキテクチャが制御される。

参照により本明細書に組み込まれる“ＡｎａｌｙｓｉｓｏｆＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅｓ”と題する２０１４年１０月２９日に出願された米国特許出願第６２／０７２，２１４号の図３、並びに図３を説明する明細書の部分は、本開示の一実施形態による、試験用核酸（参考文献においては「試料核酸」と称される）をバーコード化し、その後配列決定する１つの方法の詳しい実施例を提供する。上記のように、単一ビーズ占有が最も望ましい状態であり得るが、複数占有パーティションまたは非占有パーティションがよく存在し得ることが理解されよう。参照により本明細書に組み込まれる“ＡｎａｌｙｓｉｓｏｆＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅｓ”と題する２０１４年１０月２９日に出願された米国特許出願第６２／０７２，２１４号の図４、並びに図４を説明する明細書の部分は、本開示の一実施形態による、試料とバーコードオリゴヌクレオチドを含むビーズとを共同パーティション化するマイクロ流体チャネル構造の詳しい実施例を提供する。

一旦共同パーティション化されると、ビーズ上に配置されたオリゴヌクレオチドタグ３０２は、バーコードとして使用され、パーティション化された試料を増幅する。試料の増幅及びバーコード化においてこれらのバーコードオリゴヌクレオチドを使用するための１つのプロセスが、２０１４年２月７日に出願された米国特許出願第６１／９４０，３１８号、２０１４年５月９日に出願された米国特許出願第６１／９９１，０１８号、及び２０１４年６月２６日に出願された米国特許出願第１４／３１６，３８３号（代理人整理番号４３４８７−７０８．２０１）において詳しく説明され、当出願の開示内容全体は、参照により本明細書に組み込まれるものとする。簡潔に言うと、一態様において、試料と共に共同パーティション化され、ビーズ上に存在するオリゴヌクレオチドは、それらのビーズから遊離し、試料を有するパーティション内へ放出される。オリゴヌクレオチドは通常、バーコード配列１３２と共に、その５’末端３１６にプライマー配列を含む。いくつかの実施形態において、当プライマー配列は、試料の多数の異なる領域をランダムにプライム化するためのランダムオリゴヌクレオチド配列である。いくつかの実施形態において、プライマー配列３１６は、試料の特定標的領域の上流をプライム化することを目的とする特定プライマー配列である。

一旦遊離すると、オリゴヌクレオチドのプライマー部分は、パーティション内の試験用核酸断片３０６の相補性領域に対しアニールされる。例えばＤＮＡポリメラーゼ、ヌクレオシド３リン酸、補助因子（例えばＭｇ^２＋またはＭｎ^２＋等）といった、断片３０６及びビーズ３０４と共に同様に共同パーティション化される伸長反応試薬は、断片３０６をテンプレートとして使用してプライマー配列を伸長して、プライマーがアニールされた試験用核酸断片３０６のストランドに対する相補配列を生成し、そしてこの相補配列は、オリゴヌクレオチド３０２とその対応付けられたバーコード配列１３２とを含む。パーティション３０４内の断片３０６の異なる部分に対する複数のプライマーのアニール及び伸長により、試験用核酸断片３０６のオーバーラップ相補部分の大きなプールが生じ、オーバーラップ相補部分はそれぞれ、それ自体が作成されたパーティション３０４を示す自身のバーコード配列１３２を保有する。いくつかの事例において、これらの相補断片自体は、パーティション３０４内に存在するオリゴヌクレオチドによりプライム化されるテンプレートとして使用され、バーコード配列１３２を同様に含む相補体の相補体が生成される。いくつかの事例において、この複製プロセスは、分子がさらなる反復コピーを生成するための基礎となる能力を低減するヘアピン構造または部分的ヘアピン構造の形成を可能にするために、第１相補体が複製されると、この第１相補体がその末端またはその付近で２個の相補配列を生成するように構成される。この一実施例の略図が、図３Ｆに示される。

図３Ａが示すように、バーコード配列１３２を含むオリゴヌクレオチド３０２は、例えばエマルジョン内の液滴３０４内に、試料試験用核酸断片３０６と共に共同パーティション化される。いくつかの実施形態において、オリゴヌクレオチド３０２は、試験用核酸断片３０６と共に共同パーティション化されるビーズ３０８上に提供される。図３Ａのパネル（Ａ）に示されるように、オリゴヌクレオチド３０２は、ビーズ３０８から遊離可能であることが好ましい。図３Ａのパネル（Ｂ）に示されるように、オリゴヌクレオチド３０２は、例えば配列３１２、１３２、３１６といった１つまたは複数の機能配列に加えて、バーコード配列１３２を含む。例えば、オリゴヌクレオチド３０２は、例えばＩＬＬＵＭＩＮＡ、ＨＩＳＥＱ、またはＭＩＳＥＱシステムのフローセルにおける結合に使用されるＰ５配列といった、所定の配列決定システムのための結合または固定化配列として機能し得る結合配列３１２をさらに含むように示される。言い換えると、結合配列３１２は、いくつかの実施形態において、オリゴヌクレオチド３０２をビーズ３０８に可逆的に結合させるのに使用される。図３Ａのパネル（Ｂ）に示されるように、オリゴヌクレオチド３０２はまた、試料試験用核酸断片３０６の部分の複製をプライム化するためのランダムまたは標的Ｎ塩基長（前に論じられた）を含み得るプライマー配列３１６も含む。図３Ａのパネル（Ｂ）の例示的オリゴヌクレオチド３０２内には、配列決定システムにおける合成反応によりポリメラーゼ媒介のテンプレート向け配列をプライム化するのに使用される「リード１」またはＲ１プライム化領域といった配列プライム化領域を提供し得る配列３１０も含まれる。数多くの事例において、バーコード配列１３２、固定化配列３１２、及び例示的Ｒ１配列３１０は、所定のビーズに結合される全てのオリゴヌクレオチド３０２に共通し得る。プライマー配列３１６は、ランダムなＮ塩基長プライマーによって異なり得る、あるいは特定の標的適用のための所定のビーズ上のオリゴヌクレオチドに共通し得る。

図３Ｂを参照すると、オリゴヌクレオチド３０２ａ、３０２ｂは、プライマー配列３１６の存在に基づき試験用核酸断片３０６をプライム化することが可能であり、これにより、ビーズ３０４及び試料試験用核酸断片３０６と共に同様に共同分割されるポリメラーゼ酵素及び他の伸長試薬を使用して、オリゴヌクレオチド３０２ａ、３０２ｂの伸長が可能となる。

図３Ｃに示されるように、続いてのオリゴヌクレオチドの伸長において、ランダムなＮ塩基長プライマーに関して、試料試験用核酸断片３０６の複数の異なる領域に対するアニールが行われ、例えば断片１３０‐１、１３０‐２といった試験用核酸断片３０６の複数のオーバーラップ相補体もしくは断片が作成される。従って、図３Ｃは（Ａ）複数の配列リードの取得を示し、複数の配列リード内の各配列リード１２８は、試験用核酸６０２のサブセットに対応する第１部分１３０と、より大きい連続核酸６０２の配列に依存せず、かつ複数のパーティションのうち各配列リードが形成された（例えばバーコード配列１３２）パーティション３０４を特定するバーコードを形成する共通第２部分１３２とを備える。

これらの構成概念は、例えば配列３０６‐１、３０６‐２といった試験用核酸の部分に相補的な配列部分を含むが、本明細書において通常、結合バーコード配列を有する試料試験用核酸６０２の断片を含むとみなされる。前述のテンプレート配列の複製部分は、本明細書において、そのテンプレート配列の「断片」と多くの場合称されることが理解されよう。しかしながら、前述にもかかわらず、用語「断片」は、例えばテンプレートもしくは試料核酸といった由来試験用核酸配列の部分に対するいかなる表現も含み、これには、例えば酵素的、化学的、または機械的断片化による、所定の配列分子の実際の断片化等、テンプレート配列の部分を提供する他の機構により作成されたものも含まれる。しかしながら、好ましい態様において、試験用核酸配列の断片は、内在配列の複製部分またはその相補体を示す。

図３Ｂのバーコード化核酸断片はそれから、例えば配列分析を通して、特性評価を受け得る、あるいは、それらはさらに図３Ｄにおいて示されるように、プロセスにおいて増幅され得る。例えば、同様にビーズ３０８から遊離した例えばオリゴヌクレオチド３０２ｃといった追加オリゴヌクレオチドは、断片３０２ｂをプライム化し得る。特に、同様にオリゴヌクレオチド３０２ｃ内のランダムなＮ塩基長プライマー３１６の存在に基づき（数多くの事例において所定のパーティションにおける他のランダムなＮ塩基長とは異なる）、オリゴヌクレオチドは、断片３０２ｂとアニールし、試験用核酸配列の部分の重複を含む断片３０２ｂの少なくとも一部に対する相補体１３０‐３を作成するために伸長される。オリゴヌクレオチド３０２ｂの伸長は、断片３０２ｂのオリゴヌクレオチド部分１３０を全て複製し終えるまで続く。本明細書における別の箇所で言及されるように、そして図３Ｄにおいて例示されるように、オリゴヌクレオチドは、例えば断片に含まれるオリゴヌクレオチド３０２ｂの配列３１６、３１０を全て複製した後といった所望する時点に、ポリメラーゼにより複製を即座に終了するように構成され得る。本明細書において説明されるように、これは、例えば使用ポリメラーゼ酵素により処理不可能な異なるヌクレオチドの結合及び／またはヌクレオチドアナログを含む別の方法でも達成され得る。例えば、これは、非ウラシル耐性ポリメラーゼが配列領域３１０の複製を終わらすことを防ぐために、配列領域３１０内にウラシル含有ヌクレオチドを包含することを含み得る。その結果、図３Ｅを参照すると、バーコード配列１３２と、結合配列３１２と、Ｒ１プライマー領域３１０と、ランダムなＮ塩基長配列３１６とが含まれるオリゴヌクレオチド３０２ｂ全長を一端に含む配列リード１２８‐３が作成される。配列のもう一端には、第１オリゴヌクレオチド３０２のランダムなＮ塩基長に対する相補体３１６’、並びに配列３１０’と示されるＲ１配列の全てまたは一部に対する相補体が含まれる。Ｒ１配列３１０及びその相補体３１０’はそれから、共にハイブリダイズして部分的ヘアピン構造３６０を形成することが可能である。理解されるように、様々なオリゴヌクレオチドによりランダムなＮ塩基長は異なるため、これらの配列及びこれらの相補体がヘアピン構成に加わるとは見込まれず、例えばランダムなＮ塩基長３１６の相補体である配列３１６’は、ランダムなＮ塩基長配列３１６ｂに対し相補的になるとは見込めない。例えば所定のパーティション内のオリゴヌクレオチド間でＮ塩基長が共通である標的プライマーといった別の適用に関しては、これは該当しない。

これらの部分的ヘアピンを形成することにより、試料配列の第１レベル重複をさらなる複製から取り除くことが可能となり、例えばコピーの反復コピーが防止される。部分的ヘアピン構造はまた、例えば断片１３０‐３といった作成された断片の後続処理に有用な構造を提供する。

複数の異なるパーティションの全ての配列リード１２８はその後、本明細書において説明されるように、高処理配列決定装置による配列決定のためにプールされ得る。各配列リード１２８はその由来パーティションに応じて符号化されるため、その配列リードの配列は、バーコード１３２の存在に基づいてその由来源に戻れるよう属性付けられ得る。このような配列リード、及びこのような配列リードの分析は、開示される核酸配列データセット１２６の基礎を形成する。

図４に概略的に示される内容に関する。一実施例において示されるように、試験用核酸断片３０６‐１と試験用核酸断片３０６‐２はそれぞれ、本明細書において説明されるように、自身のバーコードオリゴヌクレオチド１３２のセットと共にパーティション化される。各パーティション内で、それから各断片（３０６‐１、３０６‐２）は、断片３０６‐１、３０６‐２のオーバーラップ配列リード１２８を別々に提供して各配列リードセット４１４、４１６を形成するように処理される。当処理はバーコード配列１３２を有する配列リード４１４を提供し、当バーコード配列１３２は、特定の第１断片３０６‐１に由来するそれぞれの配列リード４１４に関して同一である。表されるように、配列リードセット４１４は「１」と示され、一方配列リードセット４１６は「２」と示される。多様なバーコードライブラリが、多数の異なる断片リードセットを異なるようにバーコード化するために、使用され得る。しかしながら、所定のパーティション内の全ての配列リードは、異なるバーコード配列でバーコード化される必要はない。実際には、数多くの事例において、複数の異なる第１断片は、同一バーコード配列を含むように同時に処理され得る。多様なバーコードライブラリについては、本明細書における別の箇所で詳しく説明される。

配列リードセットはそれから、例えばＩｌｌｕｍｉｎａまたはＩｏｎＴｏｒｒｅｎｔｄｉｖｉｓｉｏｎｏｆＴｈｅｒｍｏＦｉｓｈｅｒ，Ｉｎｃ．にて入手可能である合成技術による配列を用いる配列決定のためにプールされ得る。一度配列決定されると、例えば集約リードに示されるように、含まれるバーコードに少なくとも部分的に基づいて、並びに任意で好ましくは断片自体の配列に部分的に基づいて、配列リード１２８はそれぞれの断片セットに属性付けられ得る。各断片セットに属性付けられた配列リードはそれからアセンブルされ、例えば配列４１８、４２０といった各試料断片のアセンブル配列が提供され、これらは今度はそれぞれの元の断片（３０６‐１、３０６‐２）戻れるようにさらに属性付けられ得る。ゲノム配列をアセンブルする方法及びシステムが、例えば２０１４年６月２６日に出願された米国特許仮出願第６２／０１７，５８０号（代理人整理番号４３４８７−７２９．１０１）において説明され、当仮出願の開示内容全体は、参照により本明細書に組み込まれるものとする。

いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸６０２は、複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む（２０８）。いくつかの実施形態において、複数の配列リード内の各配列リードの第２部分１３２におけるバーコードは、セット｛１、・・・、１０２４｝、｛１、・・・、４０９６｝、｛１、・・・、１６３８４｝、｛１、・・・、６５５３６｝、｛１、・・・、２６２１４４｝、｛１、・・・、１０４８５７６｝、｛１、・・・、４１９４３０４｝、｛１、・・・、１６７７７２１６｝、｛１、・・・、６７１０８８６４｝、または｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する（２１０）。例えば、バーコード配列１３２が５つのヌクレオチド位置のセットにより表される事例を検討する。当事例において、各ヌクレオチド位置は４つの可能性（Ａ、Ｔ、Ｃ、またはＧ）を提供し、５つの位置全てが考慮される場合、４×４×４×４×４＝１０２４の可能性が生じる。従って、５つのヌクレオチド位置は、セット｛１、・・・、１０２４｝の基礎を成す。言い換えると、バーコード配列１３２が５塩基長である場合、各配列リード１２８の第２部分１３２は、セット｛１、・・・、１０２４｝から選択される一意的な所定値を符号化する。同様に、バーコード配列１３２が６つのヌクレオチド位置のセットにより表される場合、６つのヌクレオチド位置は、４×４×４×４×４×４＝４０９６の可能性を合わせて提供する。従って、６つのヌクレオチド位置は、セット｛１、・・・、４０９６｝の基礎を成す。言い換えると、バーコード配列１３２が６塩基長である場合、各配列リード１２８の第２部分１３２は、セット｛１、・・・、４０９６｝から選択される一意的な所定値を符号化する。

いくつかの実施形態において、複数の配列リード内の配列リードの第２部分１３２におけるバーコードは、配列リード内のオリゴヌクレオチド連続セットに局所化される（２１２）。このような一例示的実施形態において、オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎはセット｛４、・・・、２０｝から選択される整数である（２１４）。言い換えると、いくつかの実施形態において、例えば図３ＢのパネルＢにおけるバーコード１３２は、試験用核酸の転写にあたり最終的に第２部分１３２となる、オリゴヌクレオチドタグ３０２内のヌクレオチド位置の連続セット（例えば４連続ヌクレオチド位置、５連続ヌクレオチド位置、６連続ヌクレオチド位置、７連続ヌクレオチド位置、８連続ヌクレオチド位置、９連続ヌクレオチド位置、１０連続ヌクレオチド位置、１１連続ヌクレオチド位置、１２連続ヌクレオチド位置、１３連続ヌクレオチド位置、１４連続ヌクレオチド位置、１５連続ヌクレオチド位置、１６連続ヌクレオチド位置、１７連続ヌクレオチド位置、１８連続ヌクレオチド位置、１９連続ヌクレオチド位置、または２０連続ヌクレオチド位置）である。

対照的に、いくつかの実施形態において、複数の配列リード内の配列リードの第２部分におけるバーコードは、配列リード内のオリゴヌクレオチド非連続セットに局所化される（２１６）。このような一例示的実施形態において、所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎはセット｛４、・・・、２０｝内の整数である（２１８）。いくつかの実施形態において、実施例として、図３ＡのパネルＢを参照すると、バーコード配列１３２は、オリゴヌクレオチドタグ３０２内の第１位置にある連続ヌクレオチド位置第１セットと、スペーサにより連続ヌクレオチド位置第１セットから変位された、オリゴヌクレオチドタグ３０２内の第２位置にある連続ヌクレオチド位置第２セットとを含む。一具体的実施例において、バーコード配列１３２は（Ｘ１）_ｎＹ_ｚ（Ｘ２）_ｍを含み、Ｘ１はｎ個の連続ヌクレオチド位置であり、Ｙはｚ個の連続ヌクレオチド位置の恒常的所定セットであり、Ｘ２はｍ個の連続ヌクレオチド位置である。当実施例において、この例示的バーコードをもたらすスキーマにより生成される配列リード１２８の第２部分におけるバーコードは、オリゴヌクレオチド非連続セット、すなわち（Ｘ１）_ｎ及び（Ｘ２）_ｍに局所化される。これは、バーコード配列１３２の非連続形式の数多くある実施例のうちの１つにすぎない。

いくつかの実施形態において、複数の配列リード内の第１配列リードは、２×３６ｂｐ、２×５０ｂｐ、２×７６ｂｐ、２×１００ｂｐ、２×１５０ｂｐ、または２×２５０ｂｐである試験用核酸のサブセットに対応し、用語２×Ｎｂｐは、配列リードが、不特定の長さに切り離された１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の長さＮ塩基対の２つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、２００〜１２００塩基対である。いくつかの実施形態において、複数の配列リード内の第１配列リードは、１個の核酸（例えば生体試料から取得される試験用核酸に由来する）の少なくとも２５ｂｐ、少なくとも３０ｂｐ、少なくとも５０ｂｐ、少なくとも１００ｂｐ、少なくとも２００ｂｐ、少なくとも２５０ｂｐ、少なくとも５００ｂｐ、５００ｂｐ未満、４００ｂｐ未満、または３００ｂｐ未満を表す（２２０）。

ビン情報の取得
開示されるシステム及び方法により、複数のビンのビン情報が取得される（２２２）。複数のビン内の各ビン１４０は、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。図５が例示される。図５において、試験用核酸６０２が描かれる。図５においてさらに示されるように、複数のビン内の各ビン１４０は、試験用核酸６０２の異なる部分１４２を表す。さらに、ビン情報は、複数のビン内の各ビン１４０に関して、各ビンに対応する配列リード１２８のセット１４４を特定する。

図５を引き続き参照すると、複数の配列リードセット内の各配列リードセット１４４に含まれる各配列リード１２８は、複数の配列リードに含まれる。すなわち、各配列リード１２８は、ビン化された試験用核酸６０２の部分１４２に対応する。

複数の配列リードセット内の各配列リードセット１４４に含まれる各配列リード１２８は、試験用核酸のサブセットに対応する各第１部分１３０を有し、各第１部分１３０は、各配列リードセットに対応するビン１４０により表される試験用核酸６０２の異なる部分１４２と少なくとも部分的にオーバーラップする。例えば、図５に示されるセット１４４‐１を参照すると、各配列リード１２８‐１‐１、・・・、１２８‐１‐Ｋは、ビン１４０‐１に対応する試験用核酸１４０‐１の領域１４２‐１の少なくともサブセットに対応する第１部分１３０を含む。図３のスキーマ及び構成概念から、典型的実施形態において、セット１４４‐１の配列リード１２８‐１‐１、・・・、１２８‐１‐Ｋの第１部分１３０は、異なる長さから成り、お互いに変位されるがオーバーラップすることが理解されよう。いくつかの実施形態において、このような第１部分１３０は、試験用核酸６０２の隣接領域１４２のいくつかのヌクレオチド位置を含み得る。いくつかの実施形態において、第１部分１３０は、ビン１４０の試験用核酸６０２の領域１４２のサブセットのみを表す。

いくつかの実施形態において、ビン１４０‐に対応する試験用核酸の領域１４２は、実質的には、ビン内の配列リード１２８のセット１４４に含まれるいずれかの所定の第１部分１３０よりも長い。さらに、いくつかの実施形態において、配列リード１２８の所定のセット１４４は、５個以上の異なるバーコード配列１３２、１０個以上の異なるバーコード配列１３２、１５個以上の異なるバーコード配列１３２、２０個以上の異なるバーコード配列１３２、２５個以上の異なるバーコード配列１３２、３０個以上の異なるバーコード配列１３２、３５個以上の異なるバーコード配列１３２、４０個以上の異なるバーコード配列１３２、４５個以上の異なるバーコード配列１３２、または５０個以上の異なるバーコード配列１３２を含む。

いくつかの実施形態において、ビン１４４内の２個以上、３個以上、４個以上、５個以上、６個以上、７個以上、８個以上、９個以上、１０個以上、または１１個以上の配列リード１２８が、同一のバーコード配列１３２を有する。いくつかの実施形態において、ビン１４４内の各配列リード１２８は、異なるバーコード配列１３２を有する。

いくつかの実施形態において、複数のビン内の各ビン１４０は、試験用核酸の少なくとも２０ｋｂｐ、少なくとも５０ｋｂｐ、少なくとも１００ｋｂｐ、少なくとも２５０ｋｂｐ、または少なくとも５００ｋｂｐを表す（２２４）。言い換えると、図５を参照すると、いくつかの実施形態において、ビン１４０‐１により表される試験用核酸６０２の部分１４２‐１は、少なくとも２０ｋｂｐ、少なくとも５０ｋｂｐ、少なくとも１００ｋｂｐ、少なくとも２５０ｋｂｐ、または少なくとも５００ｋｂｐである。

いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分４０６は、オーバーラップしない（２２６）。このような実施形態が、図５に示される。このような実施形態において、配列リード１２８の第１部分１３０が、対応ビン１４４内において隣接領域１４２とオーバーラップすることもあり得る。いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分４０６は、オーバーラップしない（２２６）が、対応ビン１４４内の配列リード１２８の第１部分１３０は隣接部分４０６と一部オーバーラップする。

いくつかの実施形態において、複数の配列リード内の各配列リードセット１４４に含まれる各配列リード１２８は、試験用核酸６０２のサブセットに対応する各第１部分１３０を有し、各第１部分１３０は、各配列リードセット１４４に対応するビン１４４により表される試験用核酸６０２の異なる部分１４２と完全にオーバーラップする。言い換えると、図５のビン１４４‐１を実施例として使用すると、いくつかの実施形態において、各配列リード１２８‐１‐１、・・・、１２８‐１‐ｋの各第１部分１３０は、領域１４２‐１の完全コピーを含む。

いくつかの実施形態において、複数のビンは、１０，０００個以上のビン、１００，０００個以上のビン、または１，０００，０００個以上のビンを含む（２３０）。

配列リードの２つのセットに共通する一意的バーコードの数の特定
方法は、複数の配列リード内の配列リード第１及び第２セットの両方に存在する一意的バーコードの数の特定に進む（２３２）。このような特定の実施例として、セット１４４‐１のうちどれだけの数の配列リード１２８‐１‐Ｘが、セット１４４‐２内の配列リード１２８‐２‐Ｙにおけるバーコード配列１３２と同一のバーコード配列１３２を有するかを特定することが挙げられる。当特定は、一意的配列バーコードの数につながる。例えば、セット１４４‐１内の配列リード１２８‐１‐Ｘ並びにセット１４４‐２内の配列リード１２８‐１‐Ｙに存在する一意的バーコードが、５個ある事例を検討する。当事例において、別個の共通バーコードの数は５個である。

特定数が偶然に起因している可能性または見込みの決定
方法は、（２３２）にて決定された前特定数が偶然に起因している可能性または見込みの決定に進む。これは、当特定数に基づくメトリクと閾値基準との比較により行われる（２３４）。メトリクが閾値基準を満たす場合、構造変異は、（ｉ）配列リード第１セットにより表される試験用核酸の異なる部分、及び／または（ｉｉ）配列リード第２セットにより表される試験用核酸の異なる部分において起こったとみなされる。

例えば、引き続き前述の図５のセット１４４‐１と１４４‐２との比較の実施例を使用して、（２３２）にて特定された数が偶然に起因している可能性または見込みが決定される。これは、（ｉ）セット１４４‐１及びセット１４４‐２に共通する５個の一意的バーコード（バーコード配列１３２）に基づくメトリクと、（ｉｉ）閾値基準との比較により行われる（２３４）。メトリクが閾値基準を満たす場合、構造変異は、（ｉ）試験用核酸６０２の部分１４２‐１、及び／または（ｉｉ）試験用核酸の異なる部分１４４‐２において起こったとみなされる。

いくつかの実施形態において、メトリクは以下のように計算される。

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、複数の配列リード内の配列リード第１及び第２セットの両方に存在するｎ個の一意的バーコード（例えばバーコード配列１３２）のセットであり、ｉはｎに対する整数指数であり、

は、バーコードｂ_ｉの第１部分が現れる複数のビンの分率である（２３６）。言い換えると、式Ａの積は、共通リードではなく、別個の共通バーコードに対し適用される。

例えば、セット１４４‐１と１４４‐２との比較において、メトリクは以下のように計算される。

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、セット１４４‐２にも存在する一意的な（すなわちセット｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝にわたって一意的な）バーコード配列１３２を有する、セット１４４‐１内のｎ個のバーコードのセットであり、ｉはｎに対する整数指数であり、
は、バーコードｂ_ｉが現れる複数のビンの分率である（２３６）。より具体的には、配列リード１２８の第１部分が各バーコード配列１３２を含む実施形態において、

は、各バーコード配列１３２が現れる複数のビンの分率である。

（１）における確率は、ｎ個のバーコードがお互いに独立して発生すると仮定して、ｎ個のバーコード全てを同時に観察する確率である。この確率が小さい場合、第１ビンと第２ビン間のオーバーラップはランダムであると仮定される。

いくつかの実施形態において、メトリクは以下のように計算される。

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、配列リード第１及び第２セットの両方に存在するｎ個の一意的バーコードのセットであり、ｎ_１は配列リード第１セット内の一意的バーコードの数であり、ｎ_２は配列リード第２セット内の一意的バーコードの数であり、ｉはｎに対する整数指数であり、
は、バーコードｂ_ｉが現れる複数のビンの分率であり、

は、２項分布の累積分布関数である。ｍａｘ（ｎ_１、ｎ_２）のバーコードがそれぞれバーコードｂ_ｉを保持する
確率を有すると仮定すると、

は、｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝において少なくとも１度のｂ_ｉの発生が達成される確率に相当する。これにより、配列リードがバーコードｂ_ｉを有する確率は、複数のバーコードにおける当バーコードの出現頻度と等しいことが推測される。

（２）または（１）における確率の計算は、各対のビン間の全共通バーコードに対する反復を要する。典型的な事例において大抵のビン対は顕著な配列バーコードオーバーラップを有さないため、候補ビン対初期セットは、全てのバーコードが同一の出現頻度を有すると仮定する計算負荷の多少軽い試験を行ことにより取得され得る。いくつかのこのような実施形態において、メトリクは以下のように計算される。

ｎは配列リード第１及び第２セット両方において存在する一意的バーコードの数であり、ｎ_１は配列リード第１セット内の一意的バーコードの数であり、ｎ_２は配列リード第２セット内の一意的バーコードの数であり、Ｂは複数のビンにわたる一意的バーコードの総数である。等式（３）は、全てのバーコードが複数のビンにおいて同一の出現頻度を有し、かつランダムに選ばれることを仮定して、ｎ個を超えるオーバーラップバーコードを観察する確率である。

ゲノム全域にわたる全ビン対（例えば複数のビンにわたる）に対する反復は時間がかかり得る。例えば、ヒトゲノム（おおよそ３×１０^９塩基対長）がサイズ１０ｋｂの非オーバーラップウィンドウにビン化される場合、これにより３×１０^５個のビンがもたらされる。言い換えると、複数のビンに３×１０^５個のビンが存在し得る。当事例において、比較ビン対の数は、約１０^１０となり得る。いくつかの実施形態において、当比較を効率的に行うことを可能にするために、行列演算が使用される。特に、染色体ごとに、Ｂ×Ｎ行列であるＡが定義され、Ｂは実験において存在する一意的バーコードの数であり、Ｎは該当染色体内のビンの数である。いずれの所定のビンにもバーコードの小サブセットのみが現れるため、当行列は非常に疎な行列となる傾向にある。２個の染色体間（または染色体とそれ自体）でオーバーラップするビンを発見するために、バーコード行列Ａ_１、Ａ_２（前にＡと定義される）に関して、積

が計算され、Ｔは行列Ａ_１の転置行列を示す。Ｎ_１、Ｎ_２はそれぞれ、Ａ_１、Ａ_２内のビンの数であり、そしてＶはＮ_１×Ｎ_２行列である。Ｖ_ｉｊは、Ａ_１のｉ番目のビンと、Ａ_２のｊ番目のビンとにバーコードオーバーラップがある場合にのみ、ゼロ以外となる。当疎行列乗算を実行するために必要となる時間とメモリは、行列の全サイズではなく、結果行列内の非ゼロ要素の数による。従って、好都合なことに、バーコードを共有する全てのビンを検出するのに要する時間は、ビンの総数ではなく、このようなビンの数により増加する。

従って、いくつかの実施形態において、第１及び第２ビンの識別は、疎行列乗算を使用して決定される。いくつかの実施形態において、疎行列乗算は以下の計算を含む。

Ａ_１は第１ビンのバーコードを含む第１Ｂ×Ｎ_１バーコード行列であり、Ａ_２は第２ビンのバーコードを含む第２Ｂ×Ｎ_２バーコード行列であり、Ｂは複数のビンにおける一意的バーコードの数であり、Ｎ_１はＡ_１内のビンの数であり、Ｎ_２はＡ_２内のビンの数であり、

は行列Ａ_１の転置行列である。

いくつかの実施形態において、第１及び第２ビンは、異なる染色体内に存在する。従って、いくつかのこのような実施形態において、第１ビンは生体試料の第１染色体に対応付けられ、第２ビンは生体試料の第２染色体に対応付けられ、Ｎ_１は第１染色体に対応付けられたビンの数であり、Ｎ_２は第２染色体に対応付けられたビンの数である。

代替実施形態において、第１及び第２ビンは、同一の染色体内に存在する。従って、いくつかのこのような実施形態において、第１及び第２ビンは生体試料の第１染色体に対応付けられ、Ｎ_１は第１染色体に対応付けられたビンの数であり、Ｎ_２はＮ_１と等しい。

本開示の計算の実施例のように、図６を参照して、肺癌細胞株ＮＣＩ‐Ｈ２２２８において一般に見られる遺伝子融合、ＥＭＬ４‐ＡＬＫ融合を検討する。当細胞株において、ＥＭＬ４のエクソン６、７間のイントロンは、ＡＬＫのエクソン２０、２１間のイントロンと融合する。これにより、ＥＭＬ４とＡＬＫの両方の部分から成る新規融合遺伝子が作られる。融合を有する試料において、ＥＭＬ４とＡＬＫの融合部分に及ぶ断片が存在する。従って、ＥＭＬ４とＡＬＫにマッピングされる配列リード１２８は、共通のバーコード１３２を有する傾向にある。通常ＥＭＬ４とＡＬＫは、同一断片が及ぶには離れすぎているため（１０００万塩基対を超える）、融合がない場合、このようなバーコード共有は起こり得ない。ＮＣＩ‐Ｈ２２２８細胞株に由来する試料において、ＥＭＬ４とＡＬＫ間に共通する１２個のバーコード１３２が特定され、これにより融合領域に及ぶ断片が少なくとも１２個存在することが示唆される。複数のビンにわたるこれらのバーコードの実証的出現頻度を考えると、前述のメトリク（１）を使用して計算されるこのようなオーバーラップがまったく偶然に起こる確率は、１０^−８未満である。

いくつかの実施形態において、ｐが１０^−２以下、１０^−３以下、１０^−４以下、または１０^−５以下である時、メトリク（例えば前述のメトリク（１）、（２）、または（３））は閾値基準を満たすとみなされる（２３８）。

いくつかの実施形態において、構造変異は、配列リード第１セットにより表される試験用核酸の異なる部分に対する、５０連続塩基以上、５００連続塩基以上、または５０００連続塩基以上の挿入または欠失である（２４０）。

いくつかの実施形態において、第１ビンにより表される試験用核酸の異なる部分は、第２ビンにより表される試験用核酸の異なる部分とオーバーラップする（２４２）。言い換えると、図５を参照すると、いくつかの実施形態において、区画１４２は、描かれるようにお互いに隣接するのではなく、お互いにオーバーラップする。いくつかのこのような実施形態において、第１ビンにより表される試験用核酸６０２の異なる部分（例えばビン１４４‐１に対応する部分１４２‐１）の少なくとも５０パーセント、少なくとも８０パーセント、または少なくとも９５パーセントが、第２ビンにより表される試験用核酸６０２の異なる部分（例えばビン１４４‐２に対応する部分１４２‐２）とオーバーラップする（２４４）。

いくつかの実施形態において、構造変異は、配列リード第２セット（例えばセット１４４‐２）により表される試験用核酸の異なる部分から、配列リード第１セット（例えばセット１４４‐１）により表される試験用核酸６０２の異なる部分への、５０連続塩基以上の、１００連続塩基以上の、２５０連続塩基以上の、５００連続塩基以上の、１０００連続塩基以上の、１０，０００連続塩基以上の、２０，０００連続塩基以上の、４０ｋｂ連続塩基以上の、１００ｋｂ連続塩基以上の、または２５０ｋｂ連続塩基以上の転座である（２４６）。

いくつかの実施形態において、配列リード第１セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第１染色体に由来し、配列リード第２セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第２染色体に由来し、第２染色体は第１染色体とは異なる（２４８）。いくつかのこのような実施形態において、第１染色体は父系染色体であり、第２染色体は母系染色体である（２５０）。いくつかのこのような実施形態において、生体試料はヒトであり、第１染色体は染色体２１、１８、または１３である（２５２）。

構造変異が起こったとみなされるいくつかの実施形態において、方法はさらに、特定された構造変異に応じる治療方式で、生体試料の由来する対象者を治療することを含む（２５４）。いくつかの実施形態において、この治療方式は、食事改善を含む（２５６）。例えば、いくつかの実施形態において、構造変異は癌に関連し、食事改善はデザート及び他の高糖度食品を回避することを含む。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む（２５８）。このような生物学的経路の非限定的実施例が、ＫＥＧＧデータベースにおいて見つかる。Ｋａｎｅｈｉｓａ及びＧｏｔｏ、２０００、“ＫＥＧＧ：ＫｙｏｔｏＥｎｃｙｃｌｏｐｅｄｉａｏｆＧｅｎｅｓａｎｄＧｅｎｏｍｅｓ”、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ２８、２７‐３０を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。

構造変異の精密な検出は、リードをゲノムに一意的かつ確信的にマップする配列アライナーの機能に依存する。いくつかの事例においては、ＢＷＡ等の最先端のアライナーを使用しても上記は当てはまらない。Ｈｅｎｇ及びＤｕｒｂｉｎ、２０１０、“Ｆａｓｔａｎｄａｃｃｕｒａｔｅｌｏｎｇ−ｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒｔｒａｎｓｆｏｒｍ”、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ、２６（５）：５８９‐９５を参照されたい。ＢＷＡの開示に関して当文献は参照によりは本明細書に組み込まれるものとする。例えば、試験用核酸６０２の高い相同性を有する２つの領域、すなわち高い配列類似度を有する２つの領域を検討する。いずれかの領域に由来する配列リード１２８は、試験用核酸６０２の両領域に適度によくアラインし得る。自然の配列変異と相まった配列決定エラーは、このような領域に由来する配列リード１２８を、その相同領域に由来するように見せ得る。これは、相同領域間での偽バーコード１３２共有を引き起こす。リード対情報に依存するアルゴリズムは、同一問題に悩まされる。このような誤判定の構造バリアントを検出できるように、いくつかの実施形態において、検出したブレークポイントの周りに配列リード１２８を局所的に再アラインするステップが行われる。コールされた構造バリアントの両ブレークポイントに対して同様の品質でアラインする配列リード１２８は、偽物として破棄される。

従って、メトリクが閾値基準を満たすとみなされるいくつかの実施形態において、方法はさらに、ＢＷＡ等のアルゴリズムによるゲノム全域アライメントよりもより精密な局所的再アライメントプロシージャを使用して、特定数の配列リード内の各配列リード１２８を、配列リード第１セット（例えばセット１４４‐１）に対応する試験用核酸６０２のサブセット１４２（例えばサブセット１４２‐１）にアラインすることを含む。その後、当アライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第１セットに対応する試験用核酸のサブセット（例えばサブセット１４２‐１）に対する第１アライメント品質が決定される。このような実施形態において、方法はさらに、特定数の配列リード内の各配列リード１２８を、配列リード第２セットに対応する試験用核酸のサブセット１４２（例えばサブセット１４２‐２）にアラインすることを含む。さらに、当アライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第２セットに対応する試験用核酸のサブセット（例えばサブセット１４２‐２）に対する第２アライメント品質が決定される。このようなアライメントの目的は、第１サブセット（例えばサブセット１４１‐１）と第２サブセット（例えばサブセット１４２‐２）とを判別しないアライメントスコアを有する配列リードを、特定数の配列リードから除くことである。言い換えると、第１アライメント品質と第２アライメントが類似する配列リードは除かれ、よって削減された配列リードの数となる。この削減された配列リードの特定数により、プロセス２３４が繰り返される（２６０）。配列数の当特定数（この時点では削減された数）が偶然に起因している可能性または見込みが、配列数の当特定数に基づくメトリクと閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、（ｉ）配列リード第１セットにより表される試験用核酸の異なる部分、及び／または（ｉｉ）配列リード第２セットにより表される試験用核酸の異なる部分において起こったとみなされる。いくつかの実施形態において、当メトリクは前述の等式（１）で定義される。

いくつかの実施形態において、ブラックアウトリストが保持される。ブラックアウトリストは、試験用核酸６０２の複数のブラックアウト領域を含む。いくつかのこのような実施形態において、決定プロセス２３４はさらに、配列リードの第１部分１３０が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、特定数の配列リードから当配列リード１２８を除くことを含む（２６２）。いくつかのこのような実施形態において、決定プロセス２３４はさらに、配列リードの第１部分１３０が複数のブラックアウト領域内のブラックアウト領域内に完全に含まれる場合にのみ、特定数の配列リードから当配列リード１２８を除くことを含む。

いくつかの実施形態において、ホワイトリストが保持される。ホワイトリストは、試験用核酸６０２の複数の領域を含む。いくつかのこのような実施形態において、決定プロセス２３４はさらに、配列リードの第１部分１３０が複数のホワイトリスト領域内のホワイトリスト領域とオーバーラップしない場合、特定数の配列リードから当配列リード１２８を除くことを含む。いくつかのこのような実施形態において、決定プロセス２３４はさらに、配列リードの第１部分１３０が複数のホワイトリスト領域内のどのホワイトリスト領域にも全く含まれない場合にのみ、特定数の配列リードから当配列リード１２８を除くことを含む。

パートＢ、構造変異に対する追加実施形態
図７を参照すると、一生体試料から取得される配列データにおいて構造変異を検出する追加方法が開示される。配列リードが取得され、各配列リードは、試験用核酸のサブセットに対応する部分と、配列データに依存しないバーコードを符号化する部分とを含む。ビン情報が取得される。各ビンは、試料核酸の異なる部分を表す。各ビンは、取得された配列リードで形成される複数の配列リードセット内の配列リードセットに対応するため、各配列リードセット内の各配列リードは、各セットに対応するビンにより表される試験用核酸のサブセットに対応する。２項検定により、共通の同一バーコードを有する配列リードを、偶然に見込まれるよりも多く有するビン対が特定される。確率モデルにより、これらのビン対の配列リードの構造変異尤度が決定される。

図７は、一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法（７０２）を示すフローチャートである。いくつかの実施形態において、方法は、いくつかの実施形態による、１つまたは複数のプロセッサと、１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される（７０４）。

複数の配列リードの取得
開示されるシステム及び方法によれば、複数の配列リード１２８が取得される（７０６）。配列リードを取得する方法は、図７の構成要素７０６〜７２０にて開示される。
さらに、前述のパートＡ、構造変異において開示される配列リードの取得方法のうちのいずれか（例えば図２の構成要素２０６〜２２０）が使用され得、簡潔性ために本明細書において説明は繰り返さない。

ビン情報の取得
開示されるシステム及び方法によれば、複数のビン１４０が取得される（７２２）。ビンを取得する方法は、図７の構成要素７２２〜７３０にて開示される。さらに、前述のパートＡ、構造変異において開示されるビンの取得方法のうちのいずれか（例えば図２の構成要素２２２〜２３０）が使用され得、簡潔性ために本明細書において説明は繰り返さない。

いくつかの実施形態において、大規模な構造バリアントをコールするために、試験用核酸（例えばゲノム）は１０ｋｂウィンドウにビン化され（以下ビン１４０と称する）、各ビン１４０内のＱ６０リードの一意的バーコード１３２が数えられる。いくつかの実施形態において、大規模な構造バリアントをコールするために、試験用核酸（例えばゲノム）は所定サイズ（例えば５ｋｂ、１０ｋｂ、２０ｋｂ、４０ｋｂ）のビン１４０にビン化され、各ビン１４０内のＱ４０リード、Ｑ５０リード、Ｑ６０リード、またはＱ７０リードの一意的バーコード１３２が数えられる。

いくつかの実施形態において、複数のビン内の各ビン１４０は、試験用核酸６０２の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リード１２８のセットを特定する。図５が例示される。図５において、試験用核酸６０２が描かれる。図５においてさらに示されるように、複数のビン内の各ビン１４０は、試験用核酸６０２の異なる部分１４２を表す。さらに、ビン情報は、複数のビン内の各ビン１４０に関して、各ビンに対応する配列リード１２８のセット１４４を特定する。

複数の配列リードセット内の各配列リードセット１４４に含まれる各配列リードは、試験用核酸のサブセットに対応する各第１部分１３０を有し、各第１部分１３０は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする（７２２）。例えば、図５に示されるセット１４４‐１を参照すると、各配列リード１２８‐１‐１、・・・、１２８‐１‐Ｋは、ビン１４０‐１に対応する試験用核酸１４０‐１の領域１４２‐１の少なくともサブセットに対応する第１部分１３０を含む。図３のスキーマ及び構成概念から、典型的実施形態において、セット１４４‐１の配列リード１２８‐１‐１、・・・、１２８‐１‐Ｋの第１部分１３０は、異なる長さから成り、お互いに変位されるがオーバーラップすることが理解されよう。いくつかの実施形態において、このような第１部分１３０は、試験用核酸６０２の隣接領域１４２のいくつかのヌクレオチド位置を含み得る。いくつかの実施形態において、第１部分１３０は、ビン１４０の試験用核酸６０２の領域１４２のサブセットのみを表す。

いくつかの実施形態において、複数のビン内の各ビン１４０は、試験用核酸の少なくとも２０ｋｂｐ、少なくとも５０ｋｂｐ、少なくとも１００ｋｂｐ、少なくとも２５０ｋｂｐ、または少なくとも５００ｋｂｐを表す（７２４）。言い換えると、図５を参照すると、いくつかの実施形態において、ビン１４０‐１により表される試験用核酸６０２の部分１４２‐１は、少なくとも２０ｋｂｐ、少なくとも５０ｋｂｐ、少なくとも１００ｋｂｐ、少なくとも２５０ｋｂｐ、または少なくとも５００ｋｂｐである。

いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分は、オーバーラップしない（７２６）。このような実施形態が、図５に示される。このような実施形態において、配列リード１２８の第１部分１３０が、対応ビン１４４内において隣接領域１４２とオーバーラップすることもあり得る。いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分４０６は、オーバーラップしない（７２６）が、対応ビン１４４内の配列リード１２８の第１部分１３０は隣接部分４０６と一部オーバーラップする。

いくつかの実施形態において、複数の配列リード内の各配列リードセットに含まれる各配列リードは、試験用核酸６０２のサブセットに対応する各第１部分１３０を有し、各第１部分１３０は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と完全にオーバーラップする（７２８）。言い換えると、図５のビン１４４‐１を実施例として使用すると、いくつかの実施形態において、各配列リード１２８‐１‐１、・・・、１２８‐１‐ｋの各第１部分１３０は、領域１４２‐１の完全コピーを含む。

いくつかの実施形態において、複数のビンは、２０個以上のビン、１００個以上のビン、１０００個以上のビン、１０，０００個以上のビン、１００，０００個以上のビン、または１，０００，０００個以上のビンを含む（７３０）。

共通バーコードを有するビンの特定
開示されるシステム及び方法において、複数のビン１４０の中から、試験用核酸の部分に対応し、かつオーバーラップしない第１ビン及び第２ビンが特定される。第１ビンは複数の配列リード内の配列リード第１セット１４４により表され、第２ビンは複数の配列リード内の配列リード第２セット１４４により表される（７３２）。いくつかの実施形態において、このような配列リードセット１４４はそれぞれ、１０個以上の配列リード１２８、２０個以上の配列リード１２８、３０個以上の配列リード１２８、または１００個以上の配列リード１２８を含む。

いくつかの実施形態において、第１ビン（１４０）及び第２ビン（１４０）は、試験用核酸上で少なくとも所定数のキロ塩基分、離れている（７３４）。いくつかの実施形態において、第１ビン及び第２ビンは、試験用核酸上で少なくとも５キロ塩基、少なくとも２５キロ塩基、少なくとも５０キロ塩基、または少なくとも１００キロ塩基、離れている（７３６）。

いくつかの実施形態において、第１セット１４４及び第２セット１４４に共通するバーコード１３２の数が偶然に起因している数値的可能性または見込みを表す第１値が計算される（７３８）。いくつかの実施形態において、２項検定を使用して第１値が計算される（７４０）。例えば、いくつかの実施形態において、少なくとも所定距離（例えば５０ｋｂ分または異なる染色体上に）離れており、かつ偶然により見込まれるよりも多くのバーコード１３２を共有する全てのビン対を見つけるために、２項検定が使用される（例えばいかなる多重仮説訂正なしに１０^−１５のｐ値カットオフを使用して）。好都合にも、このようなカットオフは、可能性のある構造変異の全関心領域を含むように十分緩いことがわかっている。いくつかの実施形態において、２項検定は以下の形式を有する。

ｐはｐ値と表される第１値であり、ｎは配列リード第１及び第２セット両方において存在する一意的バーコードの数であり、ｎ_１は配列リード第１セット内の一意的バーコードの数であり、ｎ_２は配列リード第２セット内の一意的バーコードの数であり、Ｂは複数のビンにわたる一意的バーコードの総数である（７４２）。いくつかの実施形態において、一生体試料はヒトであり、試験用核酸６０２は生体試料のゲノムであり、そして第１値が１０^−１２以下の時、第１値が１０^−１３以下の時、第１値が１０^−１４以下の時、または第１値が１０^−１５以下の時に、第１値は所定のカットオフ値を満たす（７４６）。

いくつかの実施形態において、ここで比較されるビン対の数は、ざっと約１０^１０である。これらの比較を効率的に行うために、いくつかの実施形態において、各ビン１４０内のバーコード１３２のセットは、（非常に疎な）行列における非ゼロエントリとして符号化され、疎行列乗算がオーバーラップする領域を特定するために使用される（７４８）。これにより、更なる構造変異研究のための候補ビン１４０の迅速な識別が可能となる。しかしながら、開示される２項検定は、試験用核酸断片３０６の長さ分布、及びＧＥＭにわたる増幅率の変動等、システムの多数の態様を考慮していないため、いくつかの事例において非常に多数の誤判定を生み出す。いくつかの実施形態において、第１及び第２ビンの識別は、以下の形式の疎行列乗算を使用して決定される。

Ａ_１は第１ビンを含む第１Ｂ×Ｎ_１バーコード行列であり、Ａ_２は第２ビンを含む第２Ｂ×Ｎ_２バーコード行列であり、Ｂは複数のビンにわたる一意的バーコードの数であり、Ｎ_１はＡ_１内のビンの数であり、Ｎ_２はＡ_２内のビンの数であり、

は行列Ａ_１の転置行列である（７５０）。いくつかの実施形態において、第１ビンは生体試料の第１染色体に対応付けられ、第２ビンは生体試料の第２染色体に対応付けられ、Ｎ_１は第１染色体に対応付けられたビンの数であり、Ｎ_２は第２染色体に対応付けられたビンの数である（７５２）。いくつかの実施形態において、第１ビン及び第２ビンはそれぞれ生体試料の第１染色体に対応付けられ、Ｎ_１は第１染色体に対応付けられたビンの数であり、Ｎ_２はＮ_１と等しい（７５４）。

２巡目において、ビン１４０の初期候補リストを精製するために、確率論的アプローチが使われる（７４４）。いくつかの実施形態において、同一バーコード１３２を有する近くの配列リード１２８（例えば３０ｋｂより近い）を接合することで、ライブラリ分子セットの推定が取得される。以下の論述において、同一バーコード１３２を有する近くの配列リード１２８の全範囲を指すのに、用語「断片」が使用される。断片はいくつかの非観察分子に由来する（観察断片よりも長くあり得る）。断片セットに基づいて、個別ＧＥＭのリード生成レート（ｂｐ毎の配列リード）等の量、各パーティション３０４内の分子の数、及び分子長さ分布が推定される。

候補ビン対Ｗ_１、Ｗ_２を前提として、それらをオーバーラップする断片セットが特定され、そして同一バーコード１３２を有するビンＷ_１、Ｗ_２内の断片対が特定される。このようなビン対は、同一分子がゲノムの２つの比較的離れた遺伝子座に及び得たことを示唆することから、構造変異の証拠となる可能性がある。従って、いくつかの実施形態において、第１値（前述）が所定のカットオフ値を満たすという判定に応じて、第１ビン及び第２ビン１４０に共通のバーコードごとに断片対を取得することにより、１つまたは複数の断片対を取得する。１つまたは複数の断片対内の各断片対は、（ｉ）第１ビン及び第２ビンに共通の異なるバーコードに対応し、（ｉｉ）異なる第１計算断片と異なる第２計算断片とで構成される。いくつかの実施形態において、１つまたは複数の断片対は、単一断片対である。いくつかの実施形態において、１つまたは複数の断片対は、２個以上の断片対、５個以上の断片対、１０個以上の断片対、または１００個以上の断片対である。

１つまたは複数の断片対内の各断片対に関して、異なる第１計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の配列リード１２８の各第１サブセットで構成される。各配列リード第１サブセット内の各配列リード１２８は、各配列リード第１サブセット内の別の配列リード１２８の定義済み遺伝距離（例えば３０ｋｂ）内にある。各断片対の異なる第１計算断片は、第１ビン内の各断片対に対応するバーコードを有する第１配列リードに起因する。各配列リード第１サブセット内の各配列リードは第１ビンに由来する。異なる第２計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第２サブセットで構成される。各配列リード第２サブセット内の各配列リードは、各配列リード第２サブセット内の別の配列リードの定義済み遺伝距離（例えば３０ｋｂ）内にある。各断片対の異なる第２計算断片は、第２ビン内の各断片対に対応するバーコードを有する第２配列リードに起因し、各配列リード第２サブセット内の各配列リードは第２ビンに由来する（７４４）。

ビン対が構造変異を示すという前述の特定された証拠を定量化するために、いくつかの実施形態において、尤度比スコアが計算される（７５６）。いくつかの実施形態において、１つまたは複数の断片対に関して、第１モデルの発生確率及び第２モデルの発生確率に基づいて各尤度が計算されることにより、試験用核酸６０２における構造変異の尤度が提供される。第１モデルは、１つまたは複数の断片対の各第１計算断片及び各第２計算断片が、対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示する。第２モデルは、１つまたは複数の断片対の各第１計算断片及び各第２計算断片が、対象核酸配列内に構造変異があると観察されることを明示する（７５６）。

いくつかの実施形態において、計算尤度は、第１モデルの発生確率と第２モデルの発生確率との比率スコアとして計算される（７５８）。図７Ｆの構成要素７６０を参照すると、いくつかの実施形態において、計算尤度は以下のように計算される。

異なるバーコードを有する断片は依存関係にないため、当スコアは、同一バーコードｂを有する断片対ごとの１項を伴う項の積に分解される。

ｒ_１、ｒ_２は、２個の断片それぞれの配列リード（１２８）の数であり、ｌ_１、ｌ_２は、２個の断片の観測された長さであり、ｄは、２個の断片間の距離であり、ａ_ｂは、ＧＥＭ／バーコードｂのレート（リード／ｂｐ）である。

言い換えると、ＬＲは１つまたは複数の項（例えば複数の項）の積に等しく、各項は（ｉ）１つまたは複数の断片対内の各断片対を表し、（ｉｉ）以下の形式を有する。

ｒ_１は各断片対の第１計算断片における各配列リード第１サブセット内の配列リードの数であり、ｌ_１は各断片対の配列リード第１サブセットにより決定される第１計算断片の長さであり、ｒ_２は各断片対の第２計算断片における各配列リード第２サブセット内のリードの数であり、ｌ_２は各断片対の配列リード第２サブセットにより決定される第２計算断片の長さであり、ｄは試験用核酸内の各断片対の第１計算断片と第２計算断片との間の距離であり、ａ_ｂは複数の配列リードにわたる第１バーコードのリードレートであり、ＳＶは第１モデルに従って第１計算断片及び第２計算断片が観察されたことを示し、ｎｏＳＶは第２モデルに従って第１計算断片及び第２計算断片が観察されたことを示す（７６０）。

図７Ｇの構成要素７６２を参照すると、いくつかの実施形態において、２個の候補断片は、同一分子または異なる分子に由来している可能性があるため、以下のように表される。

断片が異なる分子に由来していると仮定すると、確率は以下の通りである。

は、長さが不明の分子から、観察された長さｌに及ぶｒ個の配列リード１２８を観察する確率である。図７Ｇの構成要素７６４を参照して、配列リード１２８はゲノムにわたる一定レートでポアソンプロセスから生成されたと仮定すると、以下が得られる。

はパラメータｂによるポアソン分布の確率質量関数であり、

は実分子長がｍである（予測）確率である。

図７Ｇの構成要素７６６を参照して、断片が同一分子に由来していると仮定すると、確率は同様に以下のように計算され得る。

ｍは実分子長の長さであり、

はｒ_１に対するパラメータｂによるポアソン分布の確率質量関数であり、

はｒ_２に対するパラメータｂによるポアソン分布の確率質量関数であり、

はパラメータｂによるポアソン分布の各確率質量関数であり、

は実の共通分子長がｍである予測確率である。

構造変異が存在に関して、尤度は等式（２）に類似する。しかしながら、この場合、さらなる不明点、すなわち観察された断片に関する正確なブレークポイント位置が存在する。例えば、ｃｈｒ１の位置１００，０００〜２００，０００の間に欠失があり、しかも観察断片は領域８５，０００〜９０，０００及び２１０，０００〜２３０，０００に及ぶと仮定する。正確なブレークポイントがわかるならば、前の計算は、ｄを１０ｋｂ＋１０ｋｂ＝２０ｋｂに設定して、使用可能である。いくつかの実施形態において、実のブレークポイントの位置（よって観察断片間の実の距離）が不明なため、当計算は全てを集積化する。いくつかのこのような実施形態において、逆に計算を簡潔にするために、

となる最大限ｄ’を計算することによりｄの推定が取得される。それから

を計算するために、前述の等式においてｄは２ｄ’に設定される。言い換えると、いくつかの実施形態において、

であり、ＳＭは、複数の配列決定反応において第１計算分子及び第２計算分子が試験用核酸の同一断片に由来しているという仮定であり、ＤＭは、複数の配列決定反応において第１計算分子及び第２計算分子が試験用核酸の異なる断片に由来しているという仮定であり、

であり、

は、長さが不明の第１分子から、観察された長さｌ_１に及ぶｒ_１個のリードを観察する確率であり、

は、長さが不明の第２分子から、観察された長さｌ_２に及ぶｒ_２個のリードを観察する確率であり、２ｄ’＝は、第１計算分子及び第２計算分子に対応付けられた構造変異のブレークポイントの推定を考慮した、試験用核酸内の各断片対の第１計算断片と第２計算断片との間の距離である。ここにおいて、

及び

は、それぞれ以下のように計算される。

はパラメータｂによるポアソン分布の確率質量関数であり、

は各分子の実分子長がｍである（予測）確率である。さらに、

は、以下のように計算される。

ｍは実分子長の長さであり、

はｒ_１に対するパラメータｂによるポアソン分布の確率質量関数であり、

はｒ_２に対するパラメータｂによるポアソン分布の確率質量関数であり、

はパラメータｂによるポアソン分布の確率質量関数であり、

は実の共通分子長がｍである予測確率である。

いくつかの実施形態において、前述の等式（２）における事前確率を得るために、ゲノムのいずれかの所定位置に第２分子を有する確率はＭ／Ｇであると仮定され、Ｍは投入分子の総数であり、Ｇはゲノムのサイズである。これらの事前確率は、構造変異があるか否かに実際は無関係であるため、Ｐ（同一分子ｊ、ｎｏＳＶ）＝Ｐ（同一分子）であり、Ｐ（異なる分子）＝１−Ｐ（同一分子）である。

等式（１）及び（２）に関する前の論述は、全ゲノム配列データを推測する。標的配列の場合、対象セットの構成が考慮される。いくつかの実施形態において、非対象領域は、対象領域と同様のポアソンプロセスに従って異なるレートでリードを生成すると、仮定される。特に、ｂ_ｔは対象上のリードの分率であり、ｇ_ｔは対象領域に含まれるゲノムの分率とされる。ａ_ｂが対象領域のポアソンレートであるとすると、非対象領域のレートは、以下の通りである。

ｌ_ｔｂｐの対象領域及びｌ_ｎｂｐの非対象領域を含む領域からｒ個のリードを観察する確率は、以下の通りである。

長さが不明の分子から、観察された長さｌ＝ｌ_ｔ＋ｌ_ｎに及ぶｒ個のリードを観察する確率は、以下の通りである。

観察断片に関して、非観察分子の全ｍ−ｌオフセットに対し内部合計が適用され、

及び

は、対応オフセットに関する対象上塩基及び対象外塩基である。計算を簡潔化するために、所定値のｍに関して、対象上塩基及び対象外塩基の平均分率が全オフセットにわたり計算され、いくつかの実施形態において、全オフセットは同一対象構成を有すると仮定される。（１）を計算するために必要な残りの確率は、ＷＧＳ事例と同様の方法で調停される。

いくつかの実施形態において、下位桁あふれを避けるために、全確率は対数空間において計算される。いくつかの実施形態において、対数尤度比カットオフ値に２００が使用される。当カットオフは、経験的に発見されたものであり、（後述のフィルタリングステップ後に）非常に低い誤判定レートの高品質のコールをもたらす。

いくつかの実施形態において、構造変異は、配列リード第１セットにより表される試験用核酸の異なる部分に対する、５０連続塩基以上、５００連続塩基以上、または５０００連続塩基以上の挿入または欠失である（７６８）。いくつかの実施形態において、第１ビンの試験用核酸の異なる部分は、第２ビンにより表される試験用核酸の異なる部分とオーバーラップする（７７０）。いくつかの実施形態において、第１ビンの試験用核酸の異なる部分の少なくとも５０、８０パーセント、または９５パーセントは、第２ビンの試験用核酸の異なる部分とオーバーラップする（７７２）。いくつかの実施形態において、構造変異は、配列リード第２セットにより表される試験用核酸の異なる部分から、配列リード第１セットにより表される試験用核酸の異なる部分への５０連続塩基以上の転座である（７７４）。

いくつかの実施形態において、配列リード第１セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第１染色体に由来し、配列リード第２セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第２染色体に由来し、第２染色体は第１染色体とは異なる（７７６）。いくつかの実施形態において、第１染色体は父系染色体であり、第２染色体は母系染色体である（７７８）。いくつかの実施形態において、生体試料はヒトであり、第１染色体は染色体１〜２１のうちのいずれかである（７８０）。

いくつかの実施形態において、構造変異が起こったとみなされると、方法はさらに、構造変異に応じる治療方式で生体試料の由来する対象者を治療することを含む（７８２）。いくつかの実施形態において、治療方式は、食事改善を含む（７８４）。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制する医薬組成物の適用を含む（７８６）。

短リード情報を使用したブレークポイントの精製
いくつかの実施形態において、前述の手法を使用してブレークポイントウィンドウを取得した後、さらにブレークポイント位置を精製するために、リード対及び分裂リードからの当情報が使用される。コールされた構造バリアントごとに、コールされたブレークポイントビン内の全てのリード対及び分裂リードが選択される。全ての選択されたリード対及び分裂リードの組み合わされた証拠に基づいてブレークポイント遺伝子座を推測するために、Ｌａｙｅｒｅｔａｌ．、２０１４、“ＬＵＭＰＹ：Ａｐｒｏｂａｂｉｌｉｓｔｉｃｆｒａｍｅｗｏｒｋｆｏｒｓｔｒｕｃｔｕｒａｌｖａｒｉａｎｔｄｉｓｃｏｖｅｒｙ”、ＧｅｎｏｍｅＢｉｏｌｏｇｙ１５（６），Ｒ８４、ｄｏｉ：１０．１１８６／ｇｂ‐２０１４‐１５‐６‐ｒ８４に類似する確率論的手法が使用され、当文献全体は参照により本明細書に組み込まれるものとする。誤判定を避けるために、コールに対応する少なくとも４個のリード対及び分裂リードが存在する時にのみ、正確なブレークポイント遺伝子座の推測が試みられる。

ギャップ及び部分重複に基づくコールのフィルタリング
いくつかの実施形態において、試験用核酸の複数のブラックアウト領域を含むブラックアウトリストが保持され（７８８）、方法はさらに、特定する前に、配列リードの第１部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合に、特定数の配列リードから当配列リードを除くことを含む（７８８）。例えば、いくつかの実施形態において、ブレークポイントが同一部分重複の異なるコピーとオーバーラップする構造バリアントコール（ＵＣＳＣブラウザの部分重複トラックを使用）は除外される。構造変異はこのような領域に非常に多く（参照により全体が本明細書に組み込まれるＭｉｌｌｓｅｔａｌ．、２０１１、“Ｍａｐｐｉｎｇｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎｂｙｐｏｐｕｌａｔｉｏｎ−ｓｃａｌｅｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ”、Ｎａｔｕｒｅ、４７０（７３３２）、５９‐６５、ｄｏｉ：１０．１０３８／ｎａｔｕｒｅ０９７０８）、そのためこれらのコールのうちのいくつかは本当のイベントを表し得る。しかしながら、部分重複のどちらか一方のコピーに対し一意的でありかつ高いマッピング品質のリードマップを作るには、少量の変異で足りるため、構造変異の領域内の大分率のコールは、アライナーが反復領域を適切に解消できなかった結果として観察される。ギャップ（ＵＣＳＣブラウザのギャップトラックを使用）から、またはｈｇ３８に導入される新たな配列（ＵＣＳＣブラウザのｈｇ１９ｄｉｆｆトラックを使用）から、所定距離（例えば１０ｋｂ）内の構造バリアントコールも除外される。このようなコールは、おそらくｈｇ１９内のミスアセンブリを表すため、関心の対象とならないというのが論理的根拠である。

パートＣ、フェージング
本節において、フェージングサブモジュール１２４のいくつかの実施形態により実施される例示的方法が開示される。配列リード１２８を親ハプロタイプにフェージングする動機が示される。フェーズ化されたバリアントは、２倍体ゲノムの状態のより完全な表現である。フェーズ化バリアントにより観察表現型のより良い理解が可能になることが、様々な研究によりわかっている。例えば、Ｔｅｗｈｅｙｅｔａｌ．、２０１１、“Ｔｈｅｉｍｐｏｒｔａｎｃｅｏｆｐｈａｓｅｉｎｆｏｒｍａｔｉｏｎｆｏｒｈｕｍａｎｇｅｎｏｍｉｃｓ”、ＮａｔｒｅｖＧｅｎｅｔ、１２：２１５‐２２３を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。
例えば、複合ヘテロ接合体が存在する場合、遺伝子の１つまたは両方のコピーの喪失という曖昧性を解消するために、フェージングが必要とされる。図１１を参照すると、例えば、シスにおける２つの機能喪失変異は遺伝子の機能コピーを残すが、トランスにおける２つの機能喪失変異は両コピーを不活性状態で残す。従って、２倍体ゲノムの状態を明瞭にするために、配列リードを適切にフェーズ化する必要がある。

フェージングのアルゴリズム
バリアント（例えば前述のパートＡまたはパートＢにおいてコールされたバリアント）をフェーズ化するために、フェージング構成を考慮した、各アレルに対する配列リード及びバーコード対応尤度がモデル化される。例えば、Ｂａｎｓａｌｅｔａｌ．、２００８、“ＡｎＭＣＭＣａｌｇｏｒｉｔｈｍｆｏｒｈａｐｌｏｔｙｐｅａｓｓｅｍｂｌｙｆｒｏｍｗｈｏｌｅ‐ｇｅｎｏｍｅｓｅｑｕｅｎｃｅｄａｔａ”、ＧｅｎｏｍｅＲｅｓ、１８：１３３６‐１３４６を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。そして最大尤度フェージング構成の調査が行われる。当アルゴリズムはまず、隣接バリアントのブロックに対するビーム探索により、概最適局所ハプロタイプ構成を発見する。いくつかの実施形態において、隣接バリアントのブロックは、約４０個のバリアントを有する。いくつかの実施形態において、隣接バリアントのブロックは、１０〜３０個のバリアント、２０〜５０個のバリアント、３０〜６０個のバリアント、または６０個を超えるバリアントで構成される。隣接ブロックは、収束するまで反復的に精製される大域解を形成するために積極的に接合される。各フェージング判定の信用度は、最適解と次善解との尤度比である。

特に、所定のバリアントコールセットが取得される（例えば前述のパートＡまたはパートＢから、他のソースに由来する複数の一塩基多型等）。アレルＡ_ｉ；ｐはラベル化され、

はバリアントを指数化する。いくつかの実施形態において、

は、バリアントの２つのアレルに対する任意のラベルである。同一の親染色体に由来するアレルセットは、ハプロタイプと称され、Ｈ_０及びＨ_１に任意にラベル化される。フェージングアルゴリズムの目的は、各バリアントのどのアレルが各親染色体に由来するかを決定することである。いくつかの実施形態において、フェージング結果は、バリアントごとの２値変数

で記述され得る。

は

かつ

を示し、

は

かつ

を示す。

いくつかの代替実施形態において、

であり、ラベル「０」はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル「１」は各バリアントコールをＨ_１に割り当て、そしてラベル「−１」はバリアントコールのハプロタイプへの割り当てにおけるエラー状態を示す有利な可能性を提供する。当エラー状態は、内在バリアントの接合エラーを表す。当代替実施形態は、位置におけるバリアントコールＡ_ｉ；ｐをＨ_０またはＨ_１で提供するために依存する標準バリアントコールアルゴリズムが、実際には時折このような位置の接合を不正確にコールし得ることを考慮する。開示される代替フェージング実施形態

により、フェージング中の当形態の接合エラーの調査が好都合にも可能となる。このエラーステートに関して選択的にサンプリングする能力は、例えば配列決定エラー、弱い配列信号等によって起こる入力データのエラーから、フェージングアルゴリズムを有利に守る。

試験用核酸６０２（例えばゲノム）上の隣接バリアントは多くの場合、リード対の長さ（例えば配列リード１２８の長さ）よりも長い距離で離れ、非常に短いフェーズブロックを生じる。前に開示されるように、試験用核酸配列６０２（例えばゲノム）の小分率（０：０１〜０：００１）を含む長い試験用核酸断片３０６（例えば投入断片）は、各バーコード１３２に割り当てられるため、バーコード１３２が両ハプロタイプの配列リード１２８を含む確率は低い。

いくつかの実施形態において、配列リード１２８は、対象有機体のゲノムにアラインされる。配列リード１２８は、結合バーコード１３２配列によりグループ化される。共通バーコード配列１３２を有する配列リード１２８は、単一試験用核酸断片３０６（例えばゲノム投入断片）に由来している見込みのあるグループにパーティション化され、従って当配列リード１２８に含まれるアレルが同一ハプロタイプに由来するという証拠を提供する。いくつかの実施形態において、複数のバーコード化配列リードは

と示される。いくつかの実施形態において、複数の配列リード内の各配列リード

は、ｑが
に対する整数指数であり、参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第２部分とを備える。

いくつかの実施形態において、複数の配列リード
内の各配列リード
は

であり、（ｉ）各配列リード
に対する各ラベル「０」は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉ）各配列リード

に対する各ラベル「１」は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_１に割り当て、（ｉｉｉ）各配列リード
に対する各ラベル「−」は、Ａ_ｉ；ｐ内の対応バリアントコールが対象外であることを示す。例えば、
がＡ_ｉ；ｐ内の１０個のバリアントコールのうち５個のバリアントコールを含む事例を検討する。当実施例において、
は、値「−」を有する５個のバリアントコールを含む。これらのバリアントコールは各配列リードに存在せず、
はＡ_ｉ；ｐ内の他の５個のバリアントコールの値を含むからである。これらの５個の値における各値は、配列リード内の各バリアントコールに割り当てられたハプロタイプに応じて、０または１となる。いくつかの実施形態において、このようなハプロタイプ割り当ては、従来のハプロタイプ割り当てアルゴリズムを使用して、個々の配列リードにおけるバリアントコールに対し取得される。

開示される方法において、フェージング結果

は、Ａ_ｉ；ｐ内の個々の位置ｉにおけるハプロタイプ割り当ての最適化により取得される。複数の配列リード

内の各配列リード
が

である実施形態において、複数の配列リードの個々の位置ｉにおけるこれらのハプロタイプ割り当てはそれぞれＨ_０またはＨ_１である。位置ｉの接合状態における可能性のあるエラーがフェージングアルゴリズムで追加サンプリングされる代替実施形態において、複数の配列リード

内の各配列リード
は

であり、複数の配列リードの個々の位置ｉにおけるこれらのハプロタイプ割り当てはそれぞれＨ_０またはＨ_１またはＨ_−１であり、Ｈ_−１は前述の接合エラー状態を示す。

複数の配列リード

内の各配列リード
が

であるいくつかの実施形態において、観察配列リード１２８が試験用核酸断片３０６ｆのバリアントｉを含む確率は以下のように計算される。

ｒはリードの合計であり、

はｒ番目の配列リード１２８Ｓ_ｒがアレルＡ_ｉ，ｐに一致するか否かを調べる指示関数である。ｒ番目の配列リード１２８Ｓ_ｒがアレルＡ_ｉ，ｐに一致する場合、指示関数は第１値（例えば「１」）を有し、そうでない場合は第２値（例えば「０」）となる。表現

は、断片ｆのｒ番目の配列リードＳ_ｒがＡ_ｉ，ｐと一致しない場合に第１値（例えば「１」）となり、そうでない場合は第２値（例えば「０」）となる指示関数である。いくつかの実施形態において、割り当てられる確率は、関連リード塩基Ｑ_ｒの逆フレッド変換品質値に由来する。

複数の配列リード

内の各配列リード
が

である実施形態において、位置ｉにおける接合エラーは追加でサンプリング可能であり、観察配列リードが断片ｆのバリアントｉを含む確率は以下のように計算される。

Ｘ⁻はＨ_−１であり、

は、Ａ_ｉ，ｐが−１（Ｈ_−１）に等しい場合に第１値（例えば「１」）となり、そうでない場合は第２値（例えば「０」）となる指示関数である。

試験用核酸断片３０６ｆのデータは、３つの事例のうちの１つに由来する。最初の２つは、Ｈ_０のみまたはＨ_１のみのアレルが存在する事例である。これらの事例は典型的な事例であり、各パーティション３０４に存在する試験用核酸断片３０６（例えばゲノム）の分率に影響される高い事前確率を有する。３つ目は、両ハプロタイプの投入ＤＮＡが遺伝子座に存在するため、どのアレルも等しく観察される見込みのある事例である。

前の３つの等式は、バリアント位置ｉにおける断片３０６ｆの観察配列リード１２８の確率Ｘ_ｉ、及び断片ハプロタイプＨ_ｆを提供する。バリアントの集まり及び断片ハプロタイプを前提に、観察は独立している。第３事例の事前確率は、

、すなわちパーティションが遺伝子座に両ハプロタイプを含む確率である。全体尤度は、以下のように３つの事例を合計することにより計算可能である。

異型接合バリアントを有する試験用核酸６０２（例えばゲノム）内の各位置に、バリアント指数

が与えられ、２つのアレルのうちそれぞれは、指数

が任意で割り当てられる。

最適化
いくつかの実施形態において、前に紹介された全体目的関数のうちの１つは、フェージングベクトル

に対する階層的探索を使用して最適化される。

の実施形態の目的関数が、図１２に示される。いくつかの実施形態において、
は、

個のバリアントの局所チャンクに分割され、ブロックの関連フェージングは、Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｎの割り当てに対するビーム探索を使用して決定され、ｋは局所ブロックにおける第１バリアントである。いくつかの実施形態において、局所チャンクは、１０〜２０個のバリアント、２０〜３０個のバリアント、３０〜４０個のバリアント、３５〜４５個のバリアント、４０〜５０個のバリアント、または５０個を超えるバリアントで構成される。ビーム探索は、例えば、ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｂｅａｍ＿ｓｅａｒｃｈにて説明されており、その内容全体は参照により本明細書に組み込まれるものとする。ビーム探索を示す図１３も同様に参照されたい。図１３では、ビーム探索の各段階にて、ｋ個の高スコアの部分解のみが保持される。図１３において、ｋ＝６である。図１３において、赤いＸで印されたノードは、上位ｋに含まれないため、さらに調査されない。

隣接ブロックの関連フェージングは、候補フェージングベクトル
を生み出すことにより積極的に見つけ出される。最終的に
は、個々のバリアントのフェーズを取り替えることにより繰り返し精製される。この精製の収束により、最適フェージング構成
の推定が生み出される。いくつかの実施形態において、各フェージング判定の信用度は、最適解と次善解との尤度比である。いくつかの実施形態において、フェージング構成の精度の推定は、仮説間の尤度比を計算することにより、最適構成
とある代替構成

との尤度比を計算することで決定される。いくつかの実施形態において、信用度は以下のように、その後フレッド計測品質値として報告される。

いくつかの実施形態において、短スイッチエラーと長スイッチエラーの２種類のエラーが考慮される。短スイッチエラーは、他のバリアントは正しくフェーズ化された領域内でたった１つ誤ったフェージングが割り当てられたバリアントである。バリアントｉの短スイッチ信頼度を計測するために、Ｘ_ｉは、Ｘ_ａｌｔを形成するように反転される。短スイッチ信頼度が低い場合、フェージングコールが誤っている見込みがあると報告するのではなく、出力結果においてバリアントは非フェーズ化と印される。

長スイッチエラーは、２個の隣接ブロックバリアント・・・、Ｘ_ｉ−２、Ｘ_ｉ−１、及びＸ_ｉ、Ｘ_ｉ＋１、・・・が正確に内部フェーズ化されているが、２個のブロック間で誤った相対フェージングを有する場合に起きる。この場合、長スイッチエラーは位置ｉにてコールされる。位置ｉにおける長スイッチ信頼度は、全てのｉ以下のｊに関して、Ｘ_ｊのフェーズを反転させることにより調べられる。長スイッチ信頼度が閾値を下回る場合、新たなフェーズブロックが開始され、異なるフェーズブロック内のバリアントはお互いに関してフェーズ化されたものとしてコールされない。

試料準備
図８は、本開示の例示的実施形態による、試料準備の実施例を提供する。ＧｅｍＣｏｄｅＰｌａｔｆｏｒｍは、ＤＮＡを大規模にパーティション化及びバーコード化し、１００，０００を超える一意的バーコードを有する配列リードライブラリを生成する。カスタムアルゴリズムは、当バーコード情報を使用して、リードを元の長いＤＮＡ分子にマップし戻し、数十キロ塩基に及ぶ連結リードを作成する。約１ｎｇのｇＤＮＡに由来する長テンプレート分子は、１００，０００を超えるバーコード化パーティションにわたってランダムに分散され、パーティション毎に１０ｆｇ未満（ゲノムの０．３％未満）にされる。各パーティションは、パーティション内では一定だがパーティションにより異なるバーコードを有するプライマーを保持する。増幅反応は、各パーティション内に、バーコード化短リードライブラリ断片を作成する。結果としてできたライブラリは、標準のエクソーム解析に適合し、同時に長範囲の連結情報を保存する。特に、結果としてできたライブラリは、試料指標化され、全ゲノム配列決定可能である、あるいは標的配列ライブラリを生成するために多数の市販のハイブリッドキャプチャプラットフォームのうちの１つへのインプットとして使用可能である。この新たな連結リードデータ種の有力な性質により、イントロン領域が選択または配列決定されていなくても、対象強化後に長範囲情報が保持されることが意味される。

連結リード
図９を参照すると、マッピング後、同一バーコードを有する同一遺伝子座に由来するリードは、単一投入分子から生成された「連結リード」セットを形成する。エクソームデータにおいて連結リードは複数の対象領域に及ぶため、エクソームデータからのフェージング及び構成バリアントコールが可能となる。図９において、各点は、ＮＧＳリード対（例えば配列リード）を表す。図９において横線によりつながれるこのような配列リードのグループは、試験用核酸を配列決定するために使用される１００，０００を超えるバーコードのプール内の共通バーコードを共有する。さらに、横線はそれぞれのグループ９０２、９０４に配列され、このようなグループはそれぞれ、試験用核酸が取得された２倍体生物の２つの親ハプロタイプを表す。試験用核酸のゲノム内のエクソンの位置９０６が、図９においてさらに示される。このようなエクソンはそれぞれ、図内では縦線で示される。

配列結果
図１０を参照すると、２つの異なる有機体（それぞれＮＡ１２８７８ＷＧＳとＮＡ１２８７８ＷＥＳとラベル化される）から取得される対象核酸に由来する配列リードのライブラリは、投入材料を１ｎｇのみ必要とするにもかかわらず、低ＰＣＲ重複率かつ高マッピング済み分率を達成する。各投入分子は、数十個の連結リードのグループを生成する。

フェージング
開示されるフェージングシステム及び方法（列ＮＡ１２８７８ＷＥＳ）は、既存のバリアントコールをフェージングすることにより、起源フェージング（Ｃｌｅａｒｙｅｔａｌ．、２０１４、“Ｊｏｉｎｔｖａｒｉａｎｔａｎｄｄｅｎｏｖｏｍｕｔａｔｉｏｎｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｎｐｅｄｉｇｒｅｅｓｆｒｏｍｈｉｇｈ‐ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｉｎｇｄａｔａ”、ＪｃｏｍｐｕｔＢｉｏｌ、２１：４０５‐４１９、参照によりその全体が本明細書に組み込まれるものとする）から生成されたフェーズ化ゲノム（ＮＡ１２８７８ＷＧＳ）と、精子直接ハプロタイピング（Ｋｉｒｋｎｅｓｓｅｔａｌ．、２０１３、“Ｓｅｑｕｅｎｃｉｎｇｏｆｉｓｏｌａｔｅｄｓｐｅｒｍｃｅｌｌｓｆｏｒｄｉｒｅｃｔｈａｐｌｏｔｙｐｉｎｇｏｆａｈｕｍａｎｇｅｎｏｍｅ”、ＧｅｎｏｍｅＲｅｓ、２３：８２６‐８３２、参照によりその全体が本明細書に組み込まれるものとする）から生成されたフェーズ化ゲノム（ＨｕＲｅｆ１ＷＧＳ）と、フォスミドプーリング（Ｋｉｔｚｍａｎｅｔａｌ．、２０１１、“Ｈａｐｌｏｔｙｐｅ‐ｒｅｓｏｌｖｅｄｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｏｆａＧｕｊａｒａｔｉＩｎｄｉａｎｉｎｄｉｖｉｄｕａｌ”、ＮａｔＢｉｏｔｅｃｈｎｏｌ、２９：５９‐６３、参照によりその全体が本明細書に組み込まれるものとする）から生成されたフェーズ化ゲノム（ＮＡ２０８４７ＷＧＳ）と比較されている。これらの結果は、図１４に要約される。前の結果との高い一致が認められ、少量のカバレッジレベルでＭＢ規模のフェーズブロックが一貫して達成される。エクソーム配列決定では、本開示のシステム及び方法を用いて、１００ｋｂより短い遺伝子の９６％が単一フェーズブロックに含まれる。

構造バリアント特定−大規模構造バリアント検出結果−ＷＧＳ事例研究ＣＥＰＨトリオ
当実施例において、コールされた全欠失は、前の研究で発見されている。参照によりそれぞれ本明細書に組み込まれる３つの他の研究、Ｋｉｄｄｅｔａｌ．、２０１０、“Ａｈｕｍａｎｇｅｎｏｍｅｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｒｅｓｏｕｒｃｅｒｅｖｅａｌｓｉｎｓｉｇｈｔｓｉｎｔｏｍｕｔａｔｉｏｎａｌｍｅｃｈａｎｉｓｍｓ”、Ｃｅｌｌ、１４３：８３７‐４７と、Ｌａｙｅｒｅｔａｌ．、２０１４、“ＬＵＭＰＹ：ａｐｒｏｂａｂｉｌｉｓｔｉｃｆｒａｍｅｗｏｒｋｆｏｒｓｔｒｕｃｔｕｒａｌｖａｒｉａｎｔｄｉｓｃｏｖｅｒｙ”、ＧｅｎｏｍｅＢｉｏｌ１５：Ｒ８４と、Ｍｉｌｌｓｅｔａｌ．、２０１１、“Ｍａｐｐｉｎｇｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎｂｙｐｏｐｕｌａｔｉｏｎ−ｓｃａｌｅｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ”、Ｎａｔｕｒｅ、４７０：５９‐６５とにより前に報告された８つの欠失は、ＯＳ‐ｓｅｑ（Ｍｙｌｌｙｋａｎｇａｓｅｔａｌ．、２０１１、“Ｅｆｆｉｃｉｅｎｔｔａｒｇｅｔｅｄｒｅｓｅｑｕｅｎｃｉｎｇｏｆｈｕｍａｎｇｅｒｍｌｉｎｅａｎｄｃａｎｃｅｒｇｅｎｏｍｅｓｂｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅ−ｓｅｌｅｃｔｉｖｅｓｅｑｕｅｎｃｉｎｇ”、ＮａｔＢｉｏｔｅｃｈｎｏｌ、２９：１０２４‐１０２７、参照により本明細書に組み込まれる）、フェージング情報、ＬＯＨ、及びカバレッジの深さを使用するさらなる検証のために選択されている。
表１、２によりその結果が提供される。

表１

子における全てのコールは、メンデル遺伝と一致している（構造バリアントフェージングの節を参照）。構造バリアントをフェージングするために、トリオ情報は使用されていない。

表２

構造バリアント特定−エクソーム事例研究：Ｈ２２２８
肺癌細胞株Ｈ２２２８は、長いイントロン内にブレークポイントを伴う２つの確認遺伝子融合を有する（Ｃｈｏｉｅｔａｌ．、２００８、“ＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎｏｖｅｌｉｓｏｆｏｒｍｓｏｆｔｈｅＥＭＬ４‐ＡＬＫｔｒａｎｓｆｏｒｍｉｎｇｇｅｎｅｉｎｎｏｎ‐ｓｍａｌｌｃｅｌｌｌｕｎｇｃａｎｃｅｒ”、ＣａｎｃｅｒＲｅｓ、６８：４９７１‐４９７６と、Ｊｕｎｇｅｔａｌ．、２０１２、“ＤｉｓｃｏｖｅｒｙｏｆＡＬＫ‐ＰＴＰＮ３ｇｅｎｅｆｕｓｉｏｎｆｒｏｍｈｕｍａｎｎｏｎ‐ｓｍａｌｌｃｅｌｌｌｕｎｇｃａｒｃｉｎｏｍａｃｅｌｌｌｉｎｅｕｓｉｎｇｎｅｘｔｇｅｎｅｒａｔｉｏｎＲＮＡｓｅｑｕｅｎｃｉｎｇ”、ＧｅｎｅｓＣｈｒｏｍｏｓｏｍｅｓＣａｎｃｅｒ、５１：５９０‐５９７、それぞれ参照により本明細書に組み込まれる）。これらのブレークポイントは、オーバーラップする捕捉対象がないにもかかわらず、連結リードにより検出され得る。表３によりその結果が提供される。

表３

構造バリアントフェージング−実施例１において取られた手法
フェージング中、各テンプレート分子のハプロタイプは、バリアントと同時に計算される。構造バリアントに対応する各バーコードを、由来するハプロタイプと対応付けることにより、構造バリアントはフェーズ化され得る。構造バリアントのフェージングは、誤判定の構造バリアントが１つのハプロタイプにフェーズ化される見込みのない、有力な確認方法を提供する。構造バリアントのハプロタイプへの対応付けに関するｐ値が、２項検定を使用して計算される。図１５は、フェーズ化構造バリアントコールを示す。各投入分子のハプロタイプ割り当てによる連結リードの分割は、構造バリアントのフェーズ化構造を明らかにする。縦線１５０４は、構造バリアントコールのブレークポイントを示す。

図１６は、ＮＡ１２８７８内のコールされた欠失を示す。構造バリアントコールに対応するバーコードは、１つのハプロタイプにフェーズ化される。表の下部の３つの構造バリアントは、開示されるアルゴリズムにより正確にフィルタリングされた短リード誤判定コールを表す。誤判定コールは、独自にフェーズ化する、またはメンデル遺伝パターンに従うことはない。

当実施例は、癌エクソーム配列から構造バリアントの検出及びハプロタイプのフェージングに関する技術を説明する。具体的に、２０１５年２月２４日に出願された“ＤｅｔｅｃｔｉｎｇＳｔｒｕｃｔｕｒａｌＶａｒｉａｎｔｓａｎｄＰｈａｓｉｎｇＨａｐｌｏｔｙｐｅｓｆｒｏｍＣａｎｃｅｒＥｘｏｍｅＳｅｑｕｅｎｃｉｎｇＵｓｉｎｇ１ｎｇＤｎａＩｎｐｕｔ”と題する米国仮特許出願第６２／１２０，３３０号が実施例２に組み込まれ、当文献全体は参照により本明細書に組み込まれるものとする。

構造変化、特に遺伝子融合は、多数の癌における突然変異に至ることが知られている。数多くの事例において、これらは効果的な薬剤標的であると証明されている。しかしながら、既存の短リード配列決定技術において、特に異質癌試料において重要な突然変異を鋭敏に検出するのに必要となるウルトラディープカバレッジを達成するためにエクソン対象強化手法を用いる場合、融合検出は課題である。従って、当技術分野において求められるのは、異質癌試料において重要な突然変異を検出するための改良されたシステム及び方法である。

異質癌試料において重要な突然変異を検出するための技術的解決策（例えばコンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体）が、当実施例において提供される。特に、癌配列決定における複数の課題に対処するために、１０ＸＧｅｎｏｍｉｃｓの新たなプラットフォームが使用される。当複数の課題には、（ｉ）エクソーム配列データから遺伝子融合イベントの検出と、（ｉｉ）約１ｎｇのＤＮＡ投入から複雑配列ライブラリの取得と、（ｉｉｉ）一塩基多型及び構造バリアントのフェージングと、（ｉｖ）複雑再配列の解明とがある。

実施例２において、試料準備及び連結リードの特定は、図８、９を参照して実施例１にて示された。癌細胞株及び対応正常ＤＮＡは、ＡＴＣＣから取得され、そのサイズは、ＳａｇｅＳｃｉｅｎｃｅのＢｌｕｅＰｉｐｐｉｎを使用して２０ｋｂ以上の断片用に選択されている。配列ライブラリは、ＧｅｍＣｏｄｅＰｌａｔｆｏｒｍに投入した約１ｎｇのｇＤＮＡを使用して準備されている。５ｍｇのライブラリは、ＩＤＴｘＧｅｎ（登録商標）ＵｎｉｖｅｒｓａｌＢｌｏｃｋｉｎｇＯｌｉｇｏｓと共に、ＡＧＩＬＥＮＴＳＵＲＥＳＥＬＥＣＴＨｕｍａｎＡｌｌＥｘｏｎＶ５＋ＵＴＲｓを用いたエクソーム解析に使用されている。ライブラリは、対端部２×９８実験を使用して、ＩＬＬＵＭＩＮＡＨｉＳｅｑ２５００上で配列決定されている。配列結果は、ＧＥＭＣｏｄｅＳｏｆｔｗａｒｅＳｕｉｔｅを使用して、分析及び可視化されている。図１７は、ＰＣＲ重複率を、開示されるシステム及び方法の方法論と、ＴｒｕＳｅｑ＋ＡＧＩＬＥＮＴＳＳデータの方法論とで、様々な投入量において比較する。図１８は、バリアントコール性能を、１０Ｘ方法論と、ＴｒｕＳｅｑ／ＳＳの方法論とで、様々な投入量において比較する。図１９は、１０Ｘ方法論を用いる様々な試料実験の配列メトリクスを提供する。図１７〜１９は、開示されるシステム及び方法（例えば１０ＸＧｅｍＣｏｄｅＰｌａｔｆｏｒｍ）が約１ｎｇの範囲の投入を使用して複雑性の高い配列ライブラリを生成することを示す。この高い複雑性により、試料の量が限られている場合も、より深い標的配列決定及びより鋭敏なバリアントコールが可能となる。

図２０を参照すると、エクソーム解析の標的領域の３０ｋｂ内で起こった、前にアノテーションが付けられた再配列は、本開示のシステム及び方法（例えば全エクソーム配列解析を伴うＧｅｍＣｏｄｅＰｌａｔｆｏｒｍ）を使用して検出された遺伝子融合と比較されている。前のアノテーションは、全ゲノム配列解析またはＲＮＡベース解析を使用して発見されている。

図２１は、本開示のシステム及び方法を用いた、ＨＣＣ３８三種陰性乳癌細胞株における腫瘍特異遺伝子融合の信頼性の高い検出を示す。

図２２、２３は、本開示のシステム及び方法を用いた複雑な再配列の解明を示す。特に、Ｈ２２２８肺癌細胞株においてＥＭＬ４／ＡＬＫ融合を探すことにより、格段に複雑なイベントが明らかとなる。全ゲノム配列ＢＣ及びリード総数により、ＡＬＫのエクソン２〜１９内の欠失の存在が確認される。

図２４は、本開示のいくつかの実施形態による、遺伝子融合イベントのハプロタイプフェージングを示す。

図２５、２６は、全ゲノム配列連結リード及びフェージングがＨＣＣ１１４３三種陰性乳癌における複雑欠失兼アレル喪失イベントを明らかにする方法を示す。線２６Ａ、２６Ｂは、図２５のＸ軸に関して、図２６の相対位置を提供する。

図２７は、長イントロンの特別ベイトが存在する全エクソーム配列でＢＣＲ−ＡＢＬを検出する概要を示す。図２８、２９を参照すると、１０ＸＧｅｍＣｏｄｅライブラリは、開示されるシステム及び方法を用いて、約１ｎｇのＫＵ８１２ｇＤＮＡの投入から生成されている。ハイブリッドキャプチャは、ＡＢＬ１のエクソン１とエクソン２との間の１００ｋｂを超えるイントロン領域にマッピングする追加超塩基長ＤＮＡベイトを伴い（Ｅｘｏｍｅ＋）、または伴わず（Ｅｘｏｍｅ）、標準ＩＤＴＥｘｏｍｅパネルにより行われている（平均ベイト間隔は２ｋｂ以下）。図３０は、０．２ｆｍｏｌのイントロンベイトを伴う実験とイントロンベイトを伴わない実験の構造バリアント統計値を要約する。

結論
本明細書において単一インスタンスとして説明されるコンポーネント、動作、または構造に関して、複数のインスタンスが提供され得る。最終的には、様々なコンポーネント、動作、及びデータストアは多少任意に境界付けられ、特定の動作は具体的な例示構成に照らして示される。他の機能割り当ても想像され、実施態様（複数可）の範囲内に含まれ得る。一般に、例示的構成において個別のコンポーネントとして紹介される構造及び機能は、組み合わされた構造またはコンポーネントとして実装可能である。同様に、単一コンポーネントとして紹介される構造及び機能は、個別の複数のコンポーネントとして実装可能である。これら及び他の変形物、変更物、追加物、及び改良物は、実施態様（複数可）の範囲内に含まれる。

本明細書において様々な要素を説明するのに「第１」、「第２」等の用語が使用され得るが、これらの要素はこれらの用語に限定されるべきではないことも理解されよう。これらの用語は、１つの要素を別の要素と区別するためにのみ使用される。例えば、「第１オブジェクト」の全出現箇所を一貫して名前を変更し、「第２オブジェクト」の全出現箇所を一貫して名前を変更するのであれば、説明の意味を変えることなく、第１オブジェクトを第２オブジェクトと称することが可能であり、同様に第２オブジェクトを第１オブジェクトと称することが可能である。第１オブジェクト及び第２オブジェクトは両方ともオブジェクトであるが、それらは同一のオブジェクトではない。

本明細書において使用される用語は、特定の実施態様を説明する目的でのみ使用され、特許請求を限定する意図はない。実施態様の説明及び添付の請求項において使用される単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈が別に明示しない限り、複数形も含むことが意図される。本明細書において使用される用語「ａｎｄ／ｏｒ（及び／または）」は、関連列挙項目のうちの１つまたは複数の任意または全ての可能な組合せを指し、包含することも理解されよう。用語「ｃｏｍｐｒｉｓｅｓ（備える）」及び／または「ｃｏｍｐｒｉｓｉｎｇ（備えている）」が本明細書において使用される場合、述べられる特徴、完全体、ステップ、動作、要素、及び／またはコンポーネントの存在を特定するが、１つまたは複数の他の特徴、完全体、ステップ、動作、要素、コンポーネント、及び／またはそれらの群の存在または追加を除外しないことがさらに理解されよう。

本明細書で使用される用語「ｉｆ（場合）」は、文脈により、述べられる前提条件が真実である「ｗｈｅｎ（時）」、「ｕｐｏｎ（際）」、「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（判定に応じて）」、「ｉｎａｃｃｏｒｄａｎｃｅｗｉｔｈａｄｅｔｅｒｍｉｎａｔｉｏｎ（判定により）」、または「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ（検出に応じて）」という意味に解釈され得る。同様に、表現「ｉｆｉｔｉｓｄｅｔｅｒｍｉｎｅｄ（ｔｈａｔａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｐｒｅｃｅｄｅｎｔｉｓｔｒｕｅ）（（述べられる前提条件が真実であることが）判定された場合）」、「ｉｆ（ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｐｒｅｃｅｄｅｎｔｉｓｔｒｕｅ）（（述べられる前提条件が真実である）場合）」、または「ｗｈｅｎ（ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｐｒｅｃｅｄｅｎｔｉｓｔｒｕｅ）（（述べられる前提条件が真実である）時）」は、文脈により、述べられる前提条件が真実である「ｕｐｏｎｄｅｔｅｒｍｉｎｉｎｇ（判定の際）」、「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（判定に応じて）」、「ｉｎａｃｃｏｒｄａｎｃｅｗｉｔｈａｄｅｔｅｒｍｉｎａｔｉｏｎ（判定により）」、「ｕｐｏｎｄｅｔｅｃｔｉｎｇ（検出の際）」、または「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ（検出に応じて）」という意味に解釈され得る。

前述の説明は、例示実施態様を具現化する例示的システム、方法、技術、命令シーケンス、及びコンピューティングマシンプログラム製品を含んでいる。説明の目的上、発明主題の様々な実施態様の理解のために、多数の具体的な詳細が明らかにされる。しかしながら、発明主題の実施態様はこれらの具体的な詳細なしに実施可能であることが、当業者には明らかであろう。概して、よく知られている命令インスタンス、プロトコル、構造、及び技術は、詳細に示されていない。

前の記述は、説明のため、具体的な実施態様を参照して記述されている。しかしながら、前の例示論述に、実施態様を、開示される詳細な形態に精緻なものにする、または開示される詳細な形態に限定する意図はない。前の教えを考慮して、多数の変更及び変形が可能である。原理及びその実際的応用を最良に説明し、これにより他の当業者が、実施態様及び特定の計画的使用に合わせた様々な変更を伴う様々な実施態様を最良に使用できるように、実施態様は選ばれ説明されている。

Claims

生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法であって、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
（Ａ）複数の配列リードを取得することであって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第１部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第２部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、取得することと、
（Ｂ）複数のビンに関するビン情報を取得することであって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定し、前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、前記複数の配列リードに含まれ、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第１部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、取得することと、
（Ｃ）前記複数の配列リードのうち、前記複数のビン内の第１ビンに属する配列リード第１セットにおいて存在し、かつ前記複数の配列リードのうち、前記複数のビン内の第２ビンに属する配列リード第２セットにおいても存在する一意的バーコードの数を特定することと、
（Ｄ）前記特定数が偶然に起因している可能性または見込みを、前記特定数に基づくメトリクと閾値基準との比較により決定することであって、
前記メトリクが前記閾値基準を満たす場合、構造変異は、（ｉ）前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分、及び／または（ｉｉ）前記配列リード第２セットにより表される前記試験用核酸の前記異なる部分において起こったとみなされる、決定することと
を含む前記方法。
前記メトリクは以下のように計算され、

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、前記配列リード第１及び第２セットの両方に存在するｎ個の前記一意的バーコードのセットであり、
ｉはｎに対する整数指数であり、

は、前記バーコードｂ_ｉが現れる前記複数のビンの前記分率である、
請求項１に記載の方法。
ｐが１０^−２以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項２に記載の方法。
ｐが１０^−３以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項２に記載の方法。
ｐが１０^−４以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項２に記載の方法。
ｐが１０^−５以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項２に記載の方法。
前記メトリクは以下のように計算され、

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、前記配列リード第１及び第２セットの両方に存在するｎ個の前記一意的バーコードのセットであり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
ｉはｎに対する整数指数であり、

は、前記バーコードｂ_ｉが現れる前記複数のビンの前記分率である、
請求項１に記載の方法。
ｐが１０^−２以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項７に記載の方法。
ｐが１０^−３以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項７に記載の方法。
ｐが１０^−４以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項７に記載の方法。
ｐが１０^−５以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項７に記載の方法。
前記メトリクは以下のように計算され、

ｎは前記配列リード第１及び第２セットの両方に存在する前記一意的バーコードの数であり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
Ｂは前記複数のビンにわたる前記一意的バーコードの総数である、
請求項１に記載の方法。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５０連続塩基以上の挿入または欠失である、請求項１〜１２のいずれか１項に記載の方法。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５００連続塩基以上の挿入または欠失である、請求項１〜１２のいずれか１項に記載の方法。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５０００連続塩基以上の挿入または欠失である、請求項１〜１２のいずれか１項に記載の方法。
前記メトリクが前記閾値基準を満たすとみなされると、
（Ｅ）前記特定数の配列リード内の各配列リードを、（ｉ）前記配列リード第１セットに対応する前記試験用核酸の前記サブセットと、（ｉｉ）前記配列リード第２セットに対応する前記試験用核酸の前記サブセットとに、アラインすることと、
（Ｆ）前記アライメント（Ｅ）に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第１セットに対応する前記試験用核酸の前記サブセットに対する第１アライメント品質を決定することと、
（Ｇ）前記アライメント（Ｅ）に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第２セットに対応する前記試験用核酸の前記サブセットに対する第２アライメント品質を決定することと、
（Ｈ）前記特定数の配列リードから、類似する第１アライメント品質及び第２アライメント品質を有する各配列リードを除くことと、
（Ｉ）前記決定（Ｄ）を繰り返すことと
をさらに含む請求項１〜１５のいずれか１項に記載の方法。
前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持することをさらに含む前記方法であって、前記特定（Ｃ）はさらに、
配列リードの前記第１部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記特定数の配列リードから、前記配列リードを除くことを含む、
請求項１〜１６のいずれか１項に記載の方法。
前記複数のビン内の各ビンは、前記試験用核酸の少なくとも２０ｋｂｐを表す、請求項１〜１７のいずれか１項に記載の方法。
前記複数のビン内の各ビンは、前記試験用核酸の少なくとも５０ｋｂｐを表す、請求項１〜１７のいずれか１項に記載の方法。
前記複数のビン内の各ビンは、前記試験用核酸の少なくとも１００ｋｂｐを表す、請求項１〜１７のいずれか１項に記載の方法。
前記複数のビン内の各ビンは、前記試験用核酸の少なくとも２５０ｋｂｐを表す、請求項１〜１７のいずれか１項に記載の方法。
前記複数のビン内の各ビンは、前記試験用核酸の少なくとも５００ｋｂｐを表す、請求項１〜１７のいずれか１項に記載の方法。
前記第１ビンにより表される前記試験用核酸の前記異なる部分は、前記第２ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項１〜２２のいずれか１項に記載の方法。
前記第１ビンにより表される前記試験用核酸の前記異なる部分の少なくとも５０パーセントは、前記第２ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項２３に記載の方法。
前記第１ビンにより表される前記試験用核酸の前記異なる部分の少なくとも８０パーセントは、前記第２ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項２３に記載の方法。
前記第１ビンにより表される前記試験用核酸の前記異なる部分の少なくとも９５パーセントは、前記第２ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項２３に記載の方法。
前記複数のビン内のそれぞれのビンにより表される前記試験用核酸のそれぞれの異なる部分はオーバーラップしない、請求項１〜２２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードセットに含まれる各配列リードは、前記試験用核酸のサブセットに対応する各第１部分を有し、前記各第１部分は、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と完全にオーバーラップする、請求項１〜２２のいずれか１項に記載の方法。
前記複数のビンは、１０，０００個以上のビンを含む、請求項１〜２８のいずれか１項に記載の方法。
前記複数のビンは、１００，０００個以上のビンを含む、請求項１〜２８のいずれか１項に記載の方法。
前記複数のビンは、１，０００，０００個以上のビンを含む、請求項１〜２８のいずれか１項に記載の方法。
前記生体試料は複数染色体生物種に由来し、前記試験用核酸は、前記複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む、請求項１〜３１のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１０２４｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、４０９６｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１６３８４｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、６５５３６｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、２６２１４４｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１０４８５７６｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、４１９４３０４｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１６７７７２１６｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、６７１０８８６４｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する、請求項１〜３２のいずれか１項に記載の方法。
前記複数の配列リード内の配列リードの前記第２部分における前記バーコードは、前記配列リード内のオリゴヌクレオチド連続セットに局所化される、請求項１〜４２のいずれか１項に記載の方法。
前記オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎは前記セット｛４、・・・、２０｝から選択される整数である、請求項４３に記載の方法。
前記複数の配列リード内の配列リードの前記第２部分における前記バーコードは、前記配列リード内の所定のヌクレオチド非連続セットに局所化される、請求項１〜４２のいずれか１項に記載の方法。
前記所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎは前記セット｛４、・・・、２０｝内の整数である、請求項４５に記載の方法。
前記複数の配列リード内の前記第１配列リードは、２０ｋｂｐより大きい前記試験用核酸のサブセットに対応する、請求項１〜４６のいずれか１項に記載の方法。
前記構造変異は、前記配列リード第２セットにより表される前記試験用核酸の前記異なる部分から、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分への５０連続塩基以上の転座である、請求項１〜４７のいずれか１項に記載の方法。
前記第１ビンにより表される前記試験用核酸の前記異なる部分は、前記生体試料の第１染色体に由来し、
前記第２ビンにより表される前記試験用核酸の前記異なる部分は、前記生体試料の第２染色体に由来し、前記第２染色体は前記第１染色体と異なる、
請求項１〜４８のいずれか１項に記載の方法。
前記第１染色体は父系染色体であり、前記第２染色体は母系染色体である、請求項４９に記載の方法。
前記生体試料はヒトであり、前記第１染色体は前記セット｛１、・・・、２３｝内の染色体である、請求項１〜５０のいずれか１項に記載の方法。
前記構造変異が起こったとみなされると、前記構造変異に応じる治療方式で前記生体試料の由来する対象者を治療することをさらに含む請求項１〜５１のいずれか１項に記載の方法。
前記治療方式は、食事改善を含む、請求項５２に記載の方法。
前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項５２に記載の方法。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項１〜５４のいずれか１項に記載の方法。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項１〜５４のいずれか１項に記載の方法。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項１〜５４のいずれか１項に記載の方法。
前記複数のバーコードは、１×１０^６個以上のバーコードを含む、請求項１〜５４のいずれか１項に記載の方法。
前記第１及び第２ビンの識別は、疎行列乗算を使用して決定される、請求項１〜５４のいずれか１項に記載の方法。
前記疎行列乗算は以下を計算することを含み

Ａ_１は前記第１ビンのバーコードを含む第１Ｂ×Ｎ_１バーコード行列であり、
Ａ_２は前記第２ビンのバーコードを含む第２Ｂ×Ｎ_２バーコード行列であり、
Ｂは前記複数のビンにおける前記一意的バーコードの数であり、
Ｎ_１はＡ_１内の前記ビンの数であり、
Ｎ_２はＡ_２内の前記ビンの数であり、

は前記行列Ａ_１の転置行列である、
請求項５９に記載の方法。
前記第１ビンは前記生体試料の第１染色体に対応付けられ、
前記第２ビンは前記生体試料の第２染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２は前記第２染色体に対応付けられた前記ビンの数である、
請求項６０に記載の方法。
前記第１及び第２ビンは両方とも、前記生体試料の第１染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２はＮ_１と等しい、
請求項６１に記載の方法。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサにより実行される１つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記１つまたは複数のプログラムは、
（Ａ）複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第１部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第２部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
（Ｂ）複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定し、前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、前記複数の配列リードに含まれ、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第１部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
（Ｃ）前記複数の配列リードのうち、前記複数のビン内の第１ビンに属する配列リード第１セットにおいて存在し、かつ前記複数の配列リードのうち、前記複数のビン内の第２ビンに属する配列リード第２セットにおいても存在する一意的バーコードの数を特定する命令と、
（Ｄ）前記特定数が偶然に起因している可能性または見込みを、前記特定数に基づくメトリクと閾値基準との比較により決定する命令であって、
前記メトリクが前記閾値基準を満たす場合、構造変異は、（ｉ）前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分、及び／または（ｉｉ）前記配列リード第２セットにより表される前記試験用核酸の前記異なる部分において起こったとみなされる、命令と
を含む、前記コンピューティングシステム。
前記メトリクは以下のように計算され、

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、前記配列リード第１及び第２セットの両方に存在するｎ個の前記一意的バーコードのセットであり、
ｉはｎに対する整数指数であり、

は、前記バーコードｂ_ｉが現れる前記複数のビンの前記分率である、
請求項６３に記載のコンピューティングシステム。
ｐが１０^−４以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項６４に記載のコンピューティングシステム。
ｐが１０^−５以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項６４に記載のコンピューティングシステム。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５０連続塩基以上の挿入または欠失である、請求項６３〜６６のいずれか１項に記載のコンピューティングシステム。
前記メトリクが前記閾値基準を満たすとみなされると、前記１つまたは複数のプログラムはさらに、
（Ｅ）前記特定数の配列リード内の各配列リードを、（ｉ）前記配列リード第１セットに対応する前記試験用核酸の前記サブセットと、（ｉｉ）前記配列リード第２セットに対応する前記試験用核酸の前記サブセットとに、アラインする命令と、
（Ｆ）前記アライメント（Ｅ）に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第１セットに対応する前記試験用核酸の前記サブセットに対する第１アライメント品質を決定する命令と、
（Ｇ）前記アライメント（Ｅ）に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第２セットに対応する前記試験用核酸の前記サブセットに対する第２アライメント品質を決定する命令と、
（Ｈ）前記特定数の配列リードから、類似する第１アライメント品質及び第２アライメント品質を有する各配列リードを除く命令と、
（Ｉ）前記決定（Ｄ）を繰り返す命令と
をさらに含む、請求項６３〜６７のいずれか１項に記載のコンピューティングシステム。
前記１つまたは複数のプログラムはさらに、
前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持する命令をさらに含み、前記特定（Ｃ）はさらに、
配列リードの前記第１部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記特定数の配列リードから、前記配列リードを除くことを含む、
請求項６３〜６８のいずれか１項に記載のコンピューティングシステム。
前記複数の配列リード内の配列リードの前記第２部分における前記バーコードは、オリゴヌクレオチド連続セットに局所化される、請求項６３〜６９のいずれか１項に記載のコンピューティングシステム。
前記オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎは前記セット｛４、・・・、２０｝から選択される整数である、請求項７０に記載のコンピューティングシステム。
前記複数の配列リード内の配列リードの前記第２部分における前記バーコードは、所定のヌクレオチド非連続セットに局所化される、請求項６３〜６９のいずれか１項に記載のコンピューティングシステム。
前記所定のヌクレオチド非連続セットはＮ個のヌクレオチドで構成され、Ｎは前記セット｛４、・・・、２０｝内の整数である、請求項７２に記載のコンピューティングシステム。
前記構造変異が起こったとみなされると、前記１つまたは複数のプログラムはさらに、前記生体試料の由来する対象者、または前記対象者の治療を担当する医療関係者に対し、前記構造変異に応じる治療方式を伝える命令を含む、請求項６３〜７３のいずれか１項に記載のコンピューティングシステム。
前記治療方式は、食事改善を含む、請求項７４に記載のコンピューティングシステム。
前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項７４に記載のコンピューティングシステム。
前記メトリクは以下のように計算され、

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、前記配列リード第１及び第２セットの両方に存在するｎ個の前記一意的バーコードのセットであり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
ｉはｎに対する整数指数であり、
は、前記バーコードｂ_ｉが現れる前記複数のビンの前記分率である、
請求項６３に記載のコンピューティングシステム。
前記メトリクは以下のように計算され、

ｎは前記配列リード第１及び第２セットの両方に存在する前記一意的バーコードの数であり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
Ｂは前記複数のビンにわたる一意的バーコードの総数である、
請求項６３に記載のコンピューティングシステム。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項６３〜７８のいずれか１項に記載のコンピューティングシステム。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項６３〜７８のいずれか１項に記載のコンピューティングシステム。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項６３〜７８のいずれか１項に記載のコンピューティングシステム。
前記複数のバーコードは、１×１０^６個のバーコードを含む、請求項６３〜７８のいずれか１項に記載のコンピューティングシステム。
前記第１及び第２ビンの識別は、疎行列乗算を使用して決定される、請求項６３〜８２のいずれか１項に記載のコンピューティングシステム。
前記疎行列乗算は以下を計算することを含み

Ａ_１は前記第１ビンのバーコードを含む第１Ｂ×Ｎ_１バーコード行列であり、
Ａ_２は前記第２ビンのバーコードを含む第２Ｂ×Ｎ_２バーコード行列であり、
Ｂは前記複数のビンにおける前記一意的バーコードの数であり、
Ｎ_１はＡ_１内の前記ビンの数であり、
Ｎ_２はＡ_２内の前記ビンの数であり、

は前記行列Ａ_１の転置行列である、
請求項８３に記載のコンピューティングシステム。
前記第１ビンは前記生体試料の第１染色体に対応付けられ、
前記第２ビンは前記生体試料の第２染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２は前記第２染色体に対応付けられた前記ビンの数である、
請求項８４に記載のコンピューティングシステム。
前記第１及び第２ビンは両方とも、前記生体試料の第１染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２はＮ_１と等しい、
請求項８４に記載のコンピューティングシステム。
コンピュータにより実行されるように構成される１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記１つまたは複数のプログラムは、
（Ａ）複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第１部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第２部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
（Ｂ）複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定し、前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、前記複数の配列リードに含まれ、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第１部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
（Ｃ）前記複数の配列リードのうち、前記複数のビン内の第１ビンに属する配列リード第１セットにおいて存在し、かつ前記複数の配列リードのうち、前記複数のビン内の第２ビンに属する配列リード第２セットにおいても存在する一意的バーコードの数を特定する命令と、
（Ｄ）前記特定数が偶然に起因している可能性または見込みを、前記特定数に基づくメトリクと閾値基準との比較により決定する命令であって、
前記メトリクが前記閾値基準を満たす場合、構造変異は、（ｉ）前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分、及び／または（ｉｉ）前記配列リード第２セットにより表される前記試験用核酸の前記異なる部分において起こったとみなされる、命令と
を含む、前記非一時的コンピュータ可読記憶媒体。
前記メトリクは以下のように計算され、

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、前記配列リード第１及び第２セットの両方に存在するｎ個の前記一意的バーコードのセットであり、
ｉはｎに対する整数指数であり、
は、前記バーコードｂ_ｉが現れる前記複数のビンの前記分率である、
請求項８７に記載の非一時的コンピュータ可読記憶媒体。
ｐが１０^−４以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項８８に記載の非一時的コンピュータ可読記憶媒体。
ｐが１０^−５以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項８８に記載の非一時的コンピュータ可読記憶媒体。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５０連続塩基以上の挿入または欠失である、請求項８７〜９０のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記メトリクが前記閾値基準を満たすとみなされると、前記１つまたは複数のプログラムはさらに、
（Ｅ）前記特定数の配列リード内の各配列リードを、（ｉ）前記配列リード第１セットに対応する前記試験用核酸の前記サブセットと、（ｉｉ）前記配列リード第２セットに対応する前記試験用核酸の前記サブセットとに、アラインする命令と、
（Ｆ）前記アライメント（Ｅ）に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第１セットに対応する前記試験用核酸の前記サブセットに対する第１アライメント品質を決定する命令と、
（Ｇ）前記アライメント（Ｅ）に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第２セットに対応する前記試験用核酸の前記サブセットに対する第２アライメント品質を決定する命令と、
（Ｈ）前記特定数の配列リードから、類似する第１アライメント品質及び第２アライメント品質を有する各配列リードを除く命令と、
（Ｉ）前記決定（Ｄ）を繰り返す命令と
をさらに含む、請求項８７〜９１のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記１つまたは複数のプログラムはさらに、
前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持する命令をさらに含み、前記特定（Ｃ）はさらに、
配列リードの前記第１部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記特定数の配列リードから、前記配列リードを除くことを含む、
請求項８７〜９２のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記複数の配列リード内の配列リードの前記第１部分における前記バーコードは、オリゴヌクレオチド連続セットに局所化される、請求項８７〜９３のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎは前記セット｛４、・・・、２０｝から選択される整数である、請求項９４に記載の非一時的コンピュータ可読記憶媒体。
前記複数の配列リード内の配列リードの前記第１部分における前記バーコードは、所定のヌクレオチド非連続セットに局所化される、請求項８７〜９３のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記所定のヌクレオチド非連続セットはＮ個のヌクレオチドで構成され、Ｎは前記セット｛４、・・・、２０｝内の整数である、請求項９６に記載の非一時的コンピュータ可読記憶媒体。
前記構造変異が起こったとみなされると、前記１つまたは複数のプログラムはさらに、前記生体試料の由来する対象者、または前記対象者の治療を担当する医療関係者に対し、前記構造変異に応じる治療方式を伝える命令を含む、請求項８７〜９７のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記治療方式は、食事改善を含む、請求項９８に記載の非一時的コンピュータ可読記憶媒体。
前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項９８に記載の非一時的コンピュータ可読記憶媒体。
前記メトリクは以下のように計算され、

｛ｂ_１、ｂ_２、・・・、ｂ_ｎ｝は、前記配列リード第１及び第２セットの両方に存在するｎ個の前記一意的バーコードのセットであり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
ｉはｎに対する整数指数であり、
は、前記バーコードｂ_ｉが現れる前記複数のビンの前記分率である、
請求項８７に記載の非一時的コンピュータ可読記憶媒体。
前記メトリクは以下のように計算され、

ｎは前記配列リード第１及び第２セットの両方に存在する前記一意的バーコードの数であり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
Ｂは前記複数のビンにわたる前記一意的バーコードの総数である、
請求項８７に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項８７〜１０２のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項８７〜１０２のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項８７〜１０２のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１×１０^６個以上のバーコードを含む、請求項８７〜１０２のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記第１及び第２ビンの識別は、疎行列乗算を使用して決定される、請求項８７〜１０６のいずれか１項に記載の非一時的コンピュータ可読記憶媒体。
前記疎行列乗算は以下を計算することを含み

Ａ_１は前記第１ビンのバーコードを含む第１Ｂ×Ｎ_１バーコード行列であり、
Ａ_２は前記第２ビンのバーコードを含む第２Ｂ×Ｎ_２バーコード行列であり、
Ｂは前記複数のビンにおける前記一意的バーコードの数であり、
Ｎ_１はＡ_１内の前記ビンの数であり、
Ｎ_２はＡ_２内の前記ビンの数であり、

は前記行列Ａ_１の転置行列である、
請求項１０７に記載の非一時的コンピュータ可読記憶媒体。
前記第１ビンは前記生体試料の第１染色体に対応付けられ、
前記第２ビンは前記生体試料の第２染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２は前記第２染色体に対応付けられた前記ビンの数である、
請求項１０８に記載の非一時的コンピュータ可読記憶媒体。
前記第１及び第２ビンは両方とも、前記生体試料の第１染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２はＮ_１と等しい、
請求項１０８に記載の非一時的コンピュータ可読記憶媒体。
一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法であって、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
（Ａ）前記試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得することであって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第１部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第２部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、取得することと、
（Ｂ）複数のビンに関するビン情報を取得することであって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、前記複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定し、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第１部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、取得することと、
（Ｃ）前記複数のビンの中から、前記試験用核酸の部分に対応し、かつオーバーラップしない第１ビン及び第２ビンを特定することであって、
前記第１ビンは前記複数の配列リード内の配列リード第１セットにより表され、前記第２ビンは前記複数の配列リード内の配列リード第２セットにより表される、特定することと、
（Ｄ）前記第１セット及び前記第２セットに共通する前記バーコードの数が偶然に起因している数値的可能性または見込みを表す第１値を決定することと、
（Ｅ）前記第１値が所定のカットオフ値を満たすという判定に応じて、前記第１ビン及び前記第２ビンに共通のバーコードごとに断片対を取得することにより、１つまたは複数の断片対を取得することであって、
前記１つまたは複数の断片対内の各断片対は、（ｉ）前記第１ビン及び前記第２ビンに共通の異なるバーコードに対応し、（ｉｉ）異なる第１計算断片と異なる第２計算断片とで構成され、
前記１つまたは複数の断片対内の断片対ごとに、
前記異なる第１計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第１サブセットで構成され、
前記各配列リード第１サブセット内の各配列リードは、前記各配列リード第１サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第１計算断片は、前記第１ビン内の前記各断片対に対応する前記バーコードを有する第１配列リードに起因し、
前記各配列リード第１サブセット内の各配列リードは前記第１ビンに由来し、
前記異なる第２計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第２サブセットで構成され、
前記各配列リード第２サブセット内の各配列リードは、前記各配列リード第２サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第２計算断片は、前記第２ビン内の前記各断片対に対応する前記バーコードを有する第２配列リードに起因し、
前記各配列リード第２サブセット内の各配列リードは前記第２ビンに由来する、取得することと、
（Ｆ）前記１つまたは複数の断片対に関して、第１モデルの発生確率及び第２モデルの発生確率に基づいて各尤度を計算することにより、前記試験用核酸における構造変異の尤度を提供することであって、
（ｉ）前記第１モデルは、前記１つまたは複数の断片対の前記各第１計算断片及び前記各第２計算断片が、前記対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示し、
（ｉｉ）前記第２モデルは、前記１つまたは複数の断片対の前記各第１計算断片及び前記各第２計算断片が、前記対象核酸配列内に構造変異があると観察されることを明示する、提供することと
を含む前記方法。
前記計算（Ｆ）において計算される前記尤度の表現は、前記第１モデルの前記発生確率と前記第２モデルの前記発生確率との比率スコアである、請求項１１１に記載の方法。
前記第１ビン及び前記第２ビンは、前記試験用核酸上で少なくとも所定数のキロ塩基分、離れている、請求項１１１または１１２に記載の方法。
前記第１ビン及び前記第２ビンは、前記試験用核酸上で少なくとも５０キロ塩基分、離れている、請求項１１３に記載の方法。
前記決定（Ｄ）は２項検定を用いて前記第１値を計算する、請求項１１１〜１１４のいずれか１項に記載の方法。
前記決定（Ｄ）は２項検定を用いて、以下の形式の前記第１値を計算し

ｐはｐ値と表される前記第１値であり、
ｎは前記配列リード第１及び第２セットの両方に存在する前記一意的バーコードの数であり、
ｎ_１は、前記配列リード第１セット内の前記一意的バーコードの数であり、
ｎ_２は、前記配列リード第２セット内の前記一意的バーコードの数であり、
Ｂは前記複数のビンにわたる前記一意的バーコードの総数である、
請求項１１１〜１１４のいずれか１項に記載の方法。
前記一生体試料はヒトであり、前記試験用核酸は前記生体試料の前記ゲノムであり、前記第１値が１０^−１４以下である時に前記第１値は前記所定のカットオフ値を満たす、請求項１１１〜１１６のいずれか１項に記載の方法。
前記一生体試料はヒトであり、前記試験用核酸は前記生体試料の前記ゲノムであり、前記第１値が１０^−１５以下である時に前記第１値は前記所定のカットオフ値を満たす、請求項１１１〜１１６のいずれか１項に記載の方法。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５０連続塩基以上の挿入または欠失である、請求項１１１〜１１８のいずれか１項に記載の方法。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５００連続塩基以上の挿入または欠失である、請求項１１１〜１１８のいずれか１項に記載の方法。
前記構造変異は、前記配列リード第１セットにより表される前記試験用核酸の前記異なる部分に対する、５０００連続塩基以上の挿入または欠失である、請求項１１１〜１１８のいずれか１項に記載の方法。
前記構造変異は、遺伝子疾患に関連する、請求項１１１〜１２１のいずれか１項に記載の方法。
前記複数のビン内の各ビンは、前記試験用核酸の少なくとも２０キロ塩基、前記試験用核酸の少なくとも５０キロ塩基、前記試験用核酸の少なくとも１００キロ塩基、前記試験用核酸の少なくとも２５０キロ塩基、または前記試験用核酸の少なくとも５００キロ塩基を表す、請求項１１１〜１２２のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードセットに含まれる各配列リードは、前記試験用核酸のサブセットに対応する各第１部分を有し、前記各第１部分は、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と完全にオーバーラップする、請求項１１１〜１２２のいずれか１項に記載の方法。
前記複数のビンは、１０，０００個以上のビンを含む、請求項１１１〜１２４のいずれか１項に記載の方法。
前記複数のビンは、１００，０００個以上のビンを含む、請求項１１１〜１２４のいずれか１項に記載の方法。
前記複数のビンは、１，０００，０００個以上のビンを含む、請求項１１１〜１２４のいずれか１項に記載の方法。
前記生体試料は複数染色体生物種に由来し、前記試験用核酸は、前記複数染色体生物種に含まれる複数の染色体を集合的に表す複数の核酸を含む、請求項１１１〜１２７のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１０２４｝から選択される、前記セット｛１、・・・、４０９６｝から選択される、前記セット｛１、・・・、１６３８４｝から選択される、前記セット｛１、・・・、６５５３６｝から選択される、前記セット｛１、・・・、２６２１４４｝から選択される、前記セット｛１、・・・、１０４８５７６｝から選択される、前記セット｛１、・・・、４１９４３０４｝から選択される、前記セット｛１、・・・、１６７７７２１６｝から選択される、前記セット｛１、・・・、６７１０８８６４｝から選択される、または前記セット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する、請求項１１１〜１２８のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記各配列リード内のオリゴヌクレオチド連続セットに局所化される、請求項１１１〜１２９のいずれか１項に記載の方法。
前記オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎは前記セット｛４、・・・、２０｝から選択される整数である、請求項１３０に記載の方法。
前記複数の配列リード内の配列リードの前記第２部分における前記バーコードは、前記配列リード内の所定のヌクレオチド非連続セットに局所化される、請求項１１１〜１２０のいずれか１項に記載の方法。
前記所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎは前記セット｛４、・・・、２０｝内の整数である、請求項１３２に記載の方法。
前記第１配列リードは、１０キロ塩基より大きい前記試験用核酸の第１サブセットに対応する、請求項１１１〜１３３のいずれか１項に記載の方法。
前記第１配列リードは、２０キロ塩基より大きい前記試験用核酸の第１サブセットに対応する、請求項１１１〜１３３のいずれか１項に記載の方法。
前記構造変異が起こったとみなされると、前記構造変異に応じる治療方式で前記生体試料の由来する対象者を治療することをさらに含む請求項１１１〜１３５のいずれか１項に記載の方法。
前記治療方式は、食事改善を含む、請求項１３６に記載の方法。
前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項１３７に記載の方法。
前記第１及び第２ビンの識別は、疎行列乗算を使用する前記特定（Ｃ）により決定される、請求項１１１〜１３８のいずれか１項に記載の方法。
前記第１及び第２ビンの識別は、以下の形式の疎行列乗算を使用する前記特定（Ｃ）により決定され、

Ａ_１は前記第１ビンを含む第１Ｂ×Ｎ_１バーコード行列であり、
Ａ_２は前記第２ビンを含む第２Ｂ×Ｎ_２バーコード行列であり、
Ｂは前記複数のビンにわたる前記一意的バーコードの数であり、
Ｎ_１はＡ_１内の前記ビンの数であり、
Ｎ_２はＡ_２内の前記ビンの数であり、

は前記行列Ａ_１の転置行列である、
請求項１１１〜１３８のいずれか１項に記載の方法。
前記第１ビンは前記生体試料の第１染色体に対応付けられ、
前記第２ビンは前記生体試料の第２染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２は前記第２染色体に対応付けられた前記ビンの数である、
請求項１４０に記載の方法。
前記第１及び第２ビンは両方とも、前記生体試料の第１染色体に対応付けられ、
Ｎ_１は前記第１染色体に対応付けられた前記ビンの数であり、
Ｎ_２はＮ_１と等しい、
請求項１４０に記載の方法。
前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持することをさらに含む前記方法であって、前記特定（Ｃ）の前に、
配列リードの前記第１部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記複数の配列リードから、前記配列リードを除くことをさらに含む請求項１１１〜１４２のいずれか１項に記載の方法。
前記計算（Ｆ）において前記計算尤度は、以下のように計算され

ＬＲは複数の項の積に等しく、前記複数の項内の各項は（ｉ）前記１つまたは複数の断片対内の各断片対を表し、（ｉｉ）以下の形式を有し

ｒ_１は、前記各断片対の前記第１計算断片における前記各配列リード第１サブセット内の配列リードの数であり、
ｌ_１は、前記各断片対の前記配列リード第１サブセットにより決定される前記第１計算断片の長さであり、
ｒ_２は、前記各断片対の前記第２計算断片における前記各配列リード第２サブセット内のリードの数であり、
ｌ_２は、前記各断片対の前記配列リード第２サブセットにより決定される前記第２計算断片の長さであり、
ｄは前記試験用核酸内の前記各断片対の前記第１計算断片と前記第２計算断片との間の距離であり、
ａ_ｂは前記複数の配列リードにわたる前記第１バーコードのリードレートであり、
ＳＶは前記第１モデルに従って前記第１計算断片及び前記第２計算断片が観察されたことを示し、
ｎｏＳＶは前記第２モデルに従って前記第１計算断片及び前記第２計算断片が観察されたことを示す、
請求項１１１に記載の方法。
であり、
ＳＭは、前記複数の配列決定反応において前記第１計算分子及び前記第２計算分子が前記試験用核酸の同一断片に由来しているという前記仮定であり、
ＤＭは、前記複数の配列決定反応において前記第１計算分子及び前記第２計算分子が前記試験用核酸の異なる断片に由来しているという前記仮定であり、

であり、

は、長さが不明の第１分子から、観察された長さｌ_１に及ぶｒ_１個のリードを観察する前記確率であり、

は、長さが不明の第２分子から、観察された長さｌ_２に及ぶｒ_２個のリードを観察する前記確率である、
請求項１４４に記載の方法。
及び

はそれぞれ以下のように計算され

はパラメータｂによるポアソン分布の前記確率質量関数であり、

は前記各分子の前記実分子長がｍである前記（予測）確率である、
請求項１４５に記載の方法。
は、以下のように計算され

ｍは前記実分子長の前記長さであり、

はｒ_１に対するパラメータｂによるポアソン分布の確率質量関数であり、

はｒ_２に対するパラメータｂによるポアソン分布の確率質量関数であり、

はパラメータｂによるポアソン分布の確率質量関数であり、

は前記実の共通分子長がｍである予測確率である、
請求項１４５に記載の方法。
であり、
ＳＭは、前記複数の配列決定反応において前記第１計算分子及び前記第２計算分子が前記試験用核酸の同一断片に由来しているという前記仮定であり、
ＤＭは、前記複数の配列決定反応において前記第１計算分子及び前記第２計算分子が前記試験用核酸の異なる断片に由来しているという前記仮定であり、

であり、

は、長さが不明の第１分子から、観察された長さｌ_１に及ぶｒ_１個のリードを観察する前記確率であり、

は、長さが不明の第２分子から、観察された長さｌ_２に及ぶｒ_２個のリードを観察する前記確率であり、
２ｄ’＝は、前記第１計算分子及び前記第２計算分子に対応付けられた構造変異の前記ブレークポイントの推定を考慮した、前記試験用核酸内の前記各断片対の前記第１計算断片と前記第２計算断片との間の距離である、
請求項１４４に記載の方法。
及び

はそれぞれ以下のように計算され

はパラメータｂによるポアソン分布の前記確率質量関数であり、

は前記各分子の前記実分子長がｍである前記（予測）確率である、
請求項１４８に記載の方法。
は、以下のように計算され

ｍは前記実分子長の前記長さであり、

はｒ_１に対するパラメータｂによるポアソン分布の確率質量関数であり、

はｒ_２に対するパラメータｂによるポアソン分布の確率質量関数であり、

はパラメータｂによるポアソン分布の確率質量関数であり、

は前記実の共通分子長がｍである予測確率である、
請求項１４８に記載の方法。
２ｄ’は、

となる前記最大限ｄ’を計算することにより推定される、請求項１４８に記載の方法。
前記複数の配列リードは、全ゲノム配列データを表す、請求項１１１〜１５１のいずれか１項に記載の方法。
前記複数の配列リードは、ゲノムのサブセットの標的配列を表し、
前記複数の配列リードの第１サブセットは、前記ゲノムの前記サブセット内に由来し、

の第１リードレートを有し、
前記複数の配列リードの第２サブセットは、前記ゲノムの前記サブセット外に由来し、

の第１リードレートを有し、
は
とは異なり、前記計算（Ｆ）の前記尤度により前記複数の配列リードの前記それぞれの第１及び第２サブセットの前記異なるリードレートは補正される、
請求項１１１〜１５１のいずれか１項に記載の方法。
複数の第１及び第２ビンに関して前記（Ｄ）〜（Ｆ）が計算されることにより、前記試験用核酸内の１つまたは複数の構造変異がコールされ、前記方法はさらに、前記複数の配列リードと前記１つまたは複数の構造変異のコールを使用して、前記試験用核酸内のブレークポイント位置を精製することを含む、請求項１１１〜１５４のいずれか１項に記載の方法。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項１１１〜１５４のいずれか１項に記載の方法。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項１１１〜１５４のいずれか１項に記載の方法。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項１１１〜１５４のいずれか１項に記載の方法。
前記複数のバーコードは、１×１０^６個以上のバーコードを含む、請求項１１１〜１５４のいずれか１項に記載の方法。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサにより実行される１つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記１つまたは複数のプログラムは、
（Ａ）前記試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第１部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第２部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
（Ｂ）複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、前記複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定し、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第１部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
（Ｃ）前記複数のビンの中から、前記試験用核酸の部分に対応し、かつオーバーラップしない第１ビン及び第２ビンを特定する命令であって、
前記第１ビンは前記複数の配列リード内の配列リード第１セットにより表され、前記第２ビンは前記複数の配列リード内の配列リード第２セットにより表される、命令と、
（Ｄ）前記第１セット及び前記第２セットに共通する前記バーコードの数が偶然に起因している数値的可能性または見込みを表す第１値を決定する命令と、
（Ｅ）前記第１値が所定のカットオフ値を満たすという判定に応じて、前記第１ビン及び前記第２ビンに共通のバーコードごとに断片対を取得することにより、１つまたは複数の断片対を取得する命令であって、
前記１つまたは複数の断片対内の各断片対は、（ｉ）前記第１ビン及び前記第２ビンに共通の異なるバーコードに対応し、（ｉｉ）異なる第１計算断片と異なる第２計算断片とで構成され、
前記１つまたは複数の断片対内の断片対ごとに、
前記異なる第１計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第１サブセットで構成され、
前記各配列リード第１サブセット内の各配列リードは、前記各配列リード第１サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第１計算断片は、前記第１ビン内の前記各断片対に対応する前記バーコードを有する第１配列リードに起因し、
前記各配列リード第１サブセット内の各配列リードは前記第１ビンに由来し、
前記異なる第２計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第２サブセットで構成され、
前記各配列リード第２サブセット内の各配列リードは、前記各配列リード第２サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第２計算断片は、前記第２ビン内の前記各断片対に対応する前記バーコードを有する第２配列リードに起因し、
前記各配列リード第２サブセット内の各配列リードは前記第２ビンに由来する、命令と、
（Ｆ）前記１つまたは複数の断片対に関して、第１モデルの発生確率及び第２モデルの発生確率に基づいて各尤度を計算することにより、前記試験用核酸における構造変異の尤度を提供する命令であって、
（ｉ）前記第１モデルは、前記１つまたは複数の断片対の前記各第１計算断片及び前記各第２計算断片が、前記対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示し、
（ｉｉ）前記第２モデルは、前記１つまたは複数の断片対の前記各第１計算断片及び前記各第２計算断片が、前記対象核酸配列内に構造変異があると観察されることを明示する、命令と
を含む前記コンピューティングシステム。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項１５９に記載のコンピューティングシステム。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項１５９に記載のコンピューティングシステム。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項１５９に記載のコンピューティングシステム。
前記複数のバーコードは、１×１０^６個以上のバーコードを含む、請求項１５９に記載のコンピューティングシステム。
コンピュータにより実行されるように構成される１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記１つまたは複数のプログラムは、
（Ａ）前記試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第１部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第２部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
（Ｂ）複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、前記複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定し、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第１部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
（Ｃ）前記複数のビンの中から、前記試験用核酸の部分に対応し、かつオーバーラップしない第１ビン及び第２ビンを特定する命令であって、
前記第１ビンは前記複数の配列リード内の配列リード第１セットにより表され、前記第２ビンは前記複数の配列リード内の配列リード第２セットにより表される、命令と、
（Ｄ）前記第１セット及び前記第２セットに共通する前記バーコードの数が偶然に起因している数値的可能性または見込みを表す第１値を決定する命令と、
（Ｅ）前記第１値が所定のカットオフ値を満たすという判定に応じて、前記第１ビン及び前記第２ビンに共通のバーコードごとに断片対を取得することにより、１つまたは複数の断片対を取得する命令であって、
前記１つまたは複数の断片対内の各断片対は、（ｉ）前記第１ビン及び前記第２ビンに共通の異なるバーコードに対応し、（ｉｉ）異なる第１計算断片と異なる第２計算断片とで構成され、
前記１つまたは複数の断片対内の断片対ごとに、
前記異なる第１計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第１サブセットで構成され、
前記各配列リード第１サブセット内の各配列リードは、前記各配列リード第１サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第１計算断片は、前記第１ビン内の前記各断片対に対応する前記バーコードを有する第１配列リードに起因し、
前記各配列リード第１サブセット内の各配列リードは前記第１ビンに由来し、
前記異なる第２計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第２サブセットで構成され、
前記各配列リード第２サブセット内の各配列リードは、前記各配列リード第２サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第２計算断片は、前記第２ビン内の前記各断片対に対応する前記バーコードを有する第２配列リードに起因し、
前記各配列リード第２サブセット内の各配列リードは前記第２ビンに由来する、命令と、
（Ｆ）前記１つまたは複数の断片対に関して、第１モデルの発生確率及び第２モデルの発生確率に基づいて各尤度を計算することにより、前記試験用核酸における構造変異の尤度を提供する命令であって、
（ｉ）前記第１モデルは、前記１つまたは複数の断片対の前記各第１計算断片及び前記各第２計算断片が、前記対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示し、
（ｉｉ）前記第２モデルは、前記１つまたは複数の断片対の前記各第１計算断片及び前記各第２計算断片が、前記対象核酸配列内に構造変異があると観察されることを明示する、命令と
を含む、前記非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項１６４に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項１６４に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項１６４に記載の非一時的コンピュータ可読記憶媒体。
前記複数のバーコードは、１×１０^６個以上のバーコードを含む、請求項１６４に記載の非一時的コンピュータ可読記憶媒体。
生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法であって、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
（Ａ）前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
（Ｂ）前記生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは前記参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当てる、取得することと、
（Ｃ）前記生体試料の複数の配列リード

を取得することであって、
前記複数の配列リード内の各配列リード

は、前記参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第２部分とを備え、
前記複数の配列リード内の各配列リード
は

であり、（ｉ）ｎはＡ_ｉ；ｐ内の前記バリアントコールの数であり、（ｉｉ）前記各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）前記各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）前記各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の前記対応バリアントコールが対象外であることを示す、取得することと、
（Ｄ）以下の関係式を使用して、前記複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１間のハプロタイプ割り当ての最適化により、フェージング結果

を精製することであって、

は前記精製されたフェージングベクトルであり、
は推測される前記フェージングベクトル結果であり、
全体目的関数である

は

と等しく、
（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、前記複数のバーコード内の同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールＡ_ｉ；ｐ内の前記Ｎ個のバリアントコールの各サブセットであり、

であり、
Ｍは、前記各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、
ｉは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記Ｎ個のバリアントコールの各サブセットにおける前記ｉ番目のバリアントであり、
ｒは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合
の値は１となり、それらが一致しない場合
の値は０となり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合

の値は１となり、それらが一致する場合
の値は０となり、
Ｑ_ｒは前記参照コンセンサス配列内の前記ｉの位置における前記リード塩基のＳ_ｒに関する品質値である、精製することと
を含む前記方法。
生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの前記接合状態におけるエラーに対処する方法であって、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
（Ａ）前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
（Ｂ）前記生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは前記参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当て、ラベル−１は前記各バリアントコールを前記接合エラー状態Ｈ_−１に割り当てる、取得することと、
（Ｃ）前記生体試料の複数の配列リード

を取得することであって、
前記複数の配列リード内の各配列リード

は、前記参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第２部分とを備え、
前記複数の配列リード内の各配列リード
は

であり、（ｉ）ｎはＡ_ｉ；ｐ内の前記バリアントコールの数であり、（ｉｉ）前記各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）前記各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）前記各配列リード
に対する各ラベル−１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_−１に割り当て、（ｖ）前記各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の前記対応バリアントコールが対象外であることを示す、取得することと、
（Ｄ）以下の全体目的関数を使用して、前記複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１、Ｈ_−１間のハプロタイプ割り当ての最適化により、フェージングベクトル結果

を精製することであって、

であり、

は位置ｉにおいてＨ_−１を生じる推定であり、

であり、

は前記精製されたフェージングベクトル結果であり、
Ｃは定数であり、

は推測される前記フェージングベクトル結果であり、
（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールＡ_ｉ；ｐ内の前記Ｎ個のバリアントコールの各サブセットである、精製することと
を含む前記方法。
であり、
Ｍは、前記各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、
ｉは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記Ｎ個のバリアントコールの各サブセットにおける前記ｉ番目のバリアントであり、
ｒは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合
の値は１となり、それらが一致しない場合
の値は０となり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合

の値は１となり、それらが一致する場合
の値は０となり、

はＡ_ｉ，ｐがＨ_−１に等しい場合に値１となり、そうでない場合は値０となる指示関数であり、
Ｑ_ｒは前記参照コンセンサス配列内の前記ｉの位置における前記リード塩基のＳ_ｒに関する品質値である、
請求項１７０に記載の方法。
前記複数のバリアントコールは、前記試験用核酸における複数の異型接合一塩基多型、異型接合挿入、または異型接合欠失を含む、請求項１６９〜１７１のいずれか１項に記載の方法。
前記ハプロタイプ第１セット（Ｈ_０）は前記一有機体の母系ハプロタイプで構成され、
前記ハプロタイプ第２セット（Ｈ_１）は前記一有機体の父系ハプロタイプで構成される、
請求項１６９〜１７２のいずれか１項に記載の方法。
前記複数のバーコードは、１０００個以上のバーコードを含む、請求項１６９〜１７３のいずれか１項に記載の方法。
前記複数のバーコードは、１０，０００個以上のバーコードを含む、請求項１６９〜１７３のいずれか１項に記載の方法。
前記複数のバーコードは、１００，０００個以上のバーコードを含む、請求項１６９〜１７３のいずれか１項に記載の方法。
前記複数のバーコードは、１×１０^６個以上のバーコードを含む、請求項１６９〜１７３のいずれか１項に記載の方法。
前記生物種はヒトである、請求項１６９〜１７７のいずれか１項に記載の方法。
前記複数のバリアントコールＡ_ｉ；ｐは、１０００個以上のバリアントコールを含む、請求項１６９〜１７８のいずれか１項に記載の方法。
前記複数のバリアントコールＡ_ｉ；ｐは、１０，０００個以上のバリアントコールを含む、請求項１６９〜１７８のいずれか１項に記載の方法。
前記複数の配列リードは、１０，０００個以上の配列リードを含む、請求項１６９〜１７８のいずれか１項に記載の方法。
前記複数の配列リードは、１００，０００個以上の配列リードを含む、請求項１６９〜１８１のいずれか１項に記載の方法。
前記複数の配列リードは、１×１０^６個以上の配列リードを含む、請求項１６９〜１８２のいずれか１項に記載の方法。
は（ｘ）であり、
ｘは長さｎの２進列であり、
ｘにおける各値０は前記対応バリアントコールが前記ハプロタイプ第１セット（Ｈ_０）に由来することを示し、
ｘにおける各値１は前記対応バリアントコールが前記ハプロタイプ第２セット（Ｈ_１）に由来することを示す、
請求項１６９〜１８３のいずれか１項に記載の方法。
前記ハプロタイプ第１セット（Ｈ_０）は単一母系ハプロタイプで構成され、前記ハプロタイプ第２セット（Ｈ_１）は単一父系ハプロタイプで構成される、請求項１６９〜１８４のいずれか１項に記載の方法。
前記ハプロタイプ第１セット（Ｈ_０）は５個以上の母系染色体に対応する５個以上の母系ハプロタイプを含み、前記ハプロタイプ第２セット（Ｈ_１）は５個以上の父系染色体に対応する５個以上の父系ハプロタイプを含む、請求項１６９〜１８４のいずれか１項に記載の方法。
前記同一のそれぞれのバーコードｆを含む前記配列リードサブセットは、１０個以上の配列リードを有する、請求項１６９〜１８６のいずれか１項に記載の方法。
前記同一のそれぞれのバーコードｆを含む前記配列リードサブセットは、３０個以上の配列リードを有する、請求項１６９〜１８６のいずれか１項に記載の方法。
前記同一のそれぞれのバーコードｆを含む前記配列リードサブセットは、１００個以上の配列リードを有する、請求項１６９〜１８６のいずれか１項に記載の方法。
前記同一のそれぞれのバーコードｆを含む配列リードサブセットは、前記参照コンセンサス配列の少なくとも３０キロ塩基を表す、請求項１６９〜１８９のいずれか１項に記載の方法。
前記同一のそれぞれのバーコードｆを含む配列リードサブセットは、前記参照コンセンサス配列の少なくとも４０キロ塩基を表す、請求項１６９〜１８９のいずれか１項に記載の方法。
前記精製（Ｄ）は、

に対する階層的探索を使用して前記全体目的関数を最適化する、請求項１６９〜１９１のいずれか１項に記載の方法。
前記階層的探索は、
前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおけるＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における前記目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される、使用することと、
Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを、バリアントコールの局所ブロックごとの前記最適フェージング解を使用して積極的に接合し、これにより前記最適フェージング構成

の推定を取得することとを含む、
請求項１９２に記載の方法。
前記フェーズ結果の前記精製はさらに、前記最適フェージング構成
の前記推定における個別ｘ_ｉの前記フェーズ結果を繰り返し取り替え、前記目的関数を再計算することにより、
を取得することを含む、請求項１９３に記載の方法。
バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の２０〜６０個のバリアントで構成される、請求項１９３に記載の方法。
バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の３０〜８０個のバリアントで構成される、請求項１９３に記載の方法。
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊのうちの１つの前記割り当てに対する前記ビーム探索の繰り返しは、
の所定数の解以外を全て捨てる、請求項１９３に記載の方法。
の前記所定数の解は１０００個以下である、請求項１９７に記載の方法。
の前記所定数の解は５０００個以下である、請求項１９７に記載の方法。
前記生物種はヒトであり、前記試験用核酸試料は前記生体試料の前記ゲノムを含む、請求項１６９〜１９９のいずれか１項に記載の方法。
前記生物種は複数染色体生物種であり、前記試験用核酸試料は、前記複数染色体生物種に含まれる複数の染色体を集合的に表す複数の核酸を含む、請求項１６９〜１９９のいずれか１項に記載の方法。
前記複数の配列リード

内の各配列リードの前記第２部分における前記バーコードは、前記セット｛１、・・・、１０２４｝から選択される、前記セット｛１、・・・、４０９６｝から選択される、前記セット｛１、・・・、１６３８４｝から選択される、前記セット｛１、・・・、６５５３６｝から選択される、前記セット｛１、・・・、２６２１４４｝から選択される、前記セット｛１、・・・、１０４８５７６｝から選択される、前記セット｛１、・・・、４１９４３０４｝から選択される、前記セット｛１、・・・、１６７７７２１６｝から選択される、前記セット｛１、・・・、６７１０８８６４｝から選択される、または前記セット｛１、・・・、１×１０^１２｝から選択される一意的な所定値を符号化する、請求項１６９〜２０１のいずれか１項に記載の方法。
前記複数の配列リード内の各配列リードの前記第２部分における前記バーコードは、前記各配列リード内のオリゴヌクレオチド連続セットに局所化される、請求項１６９〜２０２のいずれか１項に記載の方法。
前記オリゴヌクレオチド連続セットはＮ塩基長であり、Ｎは前記セット｛４、・・・、２０｝から選択される整数である、請求項２０３に記載の方法。
前記複数の配列リード内の配列リードの前記第２部分における前記バーコードは、前記配列リード内の所定のヌクレオチド非連続セットに局所化される、請求項１６９〜２０２のいずれか１項に記載の方法。
前記所定のヌクレオチド非連続セットは合わせてＮ個のヌクレオチドで構成され、Ｎは前記セット｛４、・・・、２０｝内の整数である、請求項２０５に記載の方法。
前記複数の配列リード内の配列リードは、１０キロ塩基より大きい前記参照コンセンサス配列の部分に対応する、請求項１６９〜２０６のいずれか１項に記載の方法。
前記複数の配列リード内の配列リードは、２０キロ塩基より大きい前記参照コンセンサス配列の部分に対応する、請求項１６９〜２０６のいずれか１項に記載の方法。
前記複数のバリアントコールは、前記複数の配列リードから取得される、請求項１６９〜２０８のいずれか１項に記載の方法。
前記複数の配列リードは、複数のバーコード化オリゴ被覆ゲルビーズから取得され、前記試験用核酸試料は５０ｎｇ以下である、請求項１６９〜２０９のいずれか１項に記載の方法。
前記複数のバーコード化オリゴ被覆ゲルビーズは、１０，０００個のビーズを含む、請求項２１０に記載の方法。
前記複数のバーコード化オリゴ被覆ゲルビーズは、５０，０００個のビーズを含む、請求項２１０に記載の方法。
前記試験用核酸試料は２５ｎｇ以下である、請求項２１０に記載の方法。
前記試験用核酸試料は１０ｎｇ以下である、請求項２１０に記載の方法。
前記試験用核酸試料は５ｎｇ以下である、請求項２１０に記載の方法。
前記試験用核酸試料は２．５ｎｇ以下である、請求項２１０に記載の方法。
前記複数の配列リード

は、１０分以内の前記複数のバーコードの割り当てにより取得される、請求項１６９〜２１６のいずれか１項に記載の方法。
前記複数の配列リード
は、２０分以内の前記複数のバーコードの割り当てにより取得される、請求項１６９〜２１６のいずれか１項に記載の方法。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサにより実行される１つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記１つまたは複数のプログラムは、方法を実行することにより生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記方法は、
（Ａ）前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
（Ｂ）前記生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは前記参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当てる、取得することと、
（Ｃ）前記生体試料の複数の配列リード

を取得することであって、
前記複数の配列リード内の各配列リード

は、前記参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第２部分とを備え、
前記複数の配列リード内の各配列リード
は

であり、（ｉ）ｎはＡ_ｉ；ｐ内の前記バリアントコールの数であり、（ｉｉ）前記各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）前記各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）前記各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の前記対応バリアントコールが対象外であることを示す、取得することと、
（Ｄ）以下の関係式を使用して、前記複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１間のハプロタイプ割り当ての最適化により、フェージング結果

を精製することであって、

は前記精製されたフェージングベクトルであり、

は推測される前記フェージングベクトル結果であり、
全体目的関数である

は

と等しく、
（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールＡ_ｉ；ｐ内の前記Ｎ個のバリアントコールの各サブセットであり、

であり、
Ｍは、前記各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、
ｉは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記Ｎ個のバリアントコールの各サブセットにおける前記ｉ番目のバリアントであり、
ｒは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合
の値は１となり、それらが一致しない場合
の値は０となり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合

の値は１となり、それらが一致する場合
の値は０となり、
Ｑ_ｒは前記参照コンセンサス配列内の前記ｉの位置における前記リード塩基のＳ_ｒに関する品質値である、精製することと
を含む、前記コンピューティングシステム。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサにより実行される１つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記１つまたは複数のプログラムは、方法を実行することにより生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの前記接合状態におけるエラーに対処する命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記方法は、
（Ａ）前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
（Ｂ）前記生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは前記参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当て、ラベル−１は前記各バリアントコールを前記接合エラー状態Ｈ_−１に割り当てる、取得することと、
（Ｃ）前記生体試料の複数の配列リード

を取得することであって、
前記複数の配列リード内の各配列リード

は、前記参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第２部分とを備え、
前記複数の配列リード内の各配列リード
は

であり、（ｉ）ｎはＡ_ｉ；ｐ内の前記バリアントコールの数であり、（ｉｉ）前記各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）前記各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）前記各配列リード
に対する各ラベル−１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_−１に割り当て、（ｖ）前記各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の前記対応バリアントコールが対象外であることを示す、取得することと、
（Ｄ）以下の全体目的関数を使用して、前記複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１、Ｈ_−１間のハプロタイプ割り当ての最適化により、フェージングベクトル結果

を精製することであって、

であり、

は位置ｉにおいてＨ_−１を生じる推定であり、

であり、

は前記精製されたフェージングベクトル結果であり、
Ｃは定数であり、

は推測される前記フェージングベクトル結果であり、
（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールＡ_ｉ；ｐ内の前記Ｎ個のバリアントコールの各サブセットである、精製することと
を含む、前記コンピューティングシステム。
であり、
Ｍは、前記各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、
ｉは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記Ｎ個のバリアントコールの各サブセットにおける前記ｉ番目のバリアントであり、
ｒは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合
の値は１となり、それらが一致しない場合
の値は０となり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合

の値は１となり、それらが一致する場合
の値は０となり、

はＡ_ｉ，ｐがＨ_−１に等しい場合に値１となり、そうでない場合は値０となる指示関数であり、
Ｑ_ｒは前記参照コンセンサス配列内の前記ｉの位置における前記リード塩基のＳ_ｒに関する品質値である、
請求項２２０に記載のコンピューティングシステム。
コンピュータにより実行されるように構成される１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記１つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記１つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
（Ａ）前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
（Ｂ）前記生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは前記参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当てる、取得することと、
（Ｃ）前記生体試料の複数の配列リード

を取得することであって、
前記複数の配列リード内の各配列リード

は、前記参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第２部分とを備え、
前記複数の配列リード内の各配列リード
は

であり、（ｉ）ｎはＡ_ｉ；ｐ内の前記バリアントコールの数であり、（ｉｉ）前記各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）前記各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）前記各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の前記対応バリアントコールが対象外であることを示す、取得することと、
（Ｄ）以下の関係式を使用して、前記複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１間のハプロタイプ割り当ての最適化により、フェージング結果

を精製することであって、

は前記精製されたフェージングベクトルであり、

は推測される前記フェージングベクトル結果であり、
全体目的関数である

は

と等しく、
（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールＡ_ｉ；ｐ内の前記Ｎ個のバリアントコールの各サブセットであり、

であり、
Ｍは、前記各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、
ｉは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記Ｎ個のバリアントコールの各サブセットにおける前記ｉ番目のバリアントであり、
ｒは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合
の値は１となり、それらが一致しない場合
の値は０となり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合

の値は１となり、それらが一致する場合
の値は０となり、
Ｑ_ｒは前記参照コンセンサス配列内の前記ｉの位置における前記リード塩基のＳ_ｒに関する品質値である、精製することと
を含む、前記非一時的コンピュータ可読記憶媒体。
コンピュータにより実行されるように構成される１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記１つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの前記接合状態におけるエラーに対処する命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記１つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
（Ａ）前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
（Ｂ）前記生体試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは前記参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当て、ラベル−１は前記各バリアントコールを前記接合エラー状態Ｈ_−１に割り当てる、取得することと、
（Ｃ）前記生体試料の複数の配列リード

を取得することであって、
前記複数の配列リード内の各配列リード

は、前記参照配列のサブセットに対応する第１部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第２部分とを備え、
前記複数の配列リード内の各配列リード
は

であり、（ｉ）ｎはＡ_ｉ；ｐ内の前記バリアントコールの数であり、（ｉｉ）前記各配列リード
に対する各ラベル０は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｉｉ）前記各配列リード
に対する各ラベル１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_０に割り当て、（ｉｖ）前記各配列リード
に対する各ラベル−１は、Ａ_ｉ；ｐ内の対応バリアントコールをＨ_−１に割り当て、（ｖ）前記各配列リード
に対する各ラベル−は、Ａ_ｉ；ｐ内の前記対応バリアントコールが対象外であることを示す、取得することと、
（Ｄ）以下の全体目的関数を使用して、前記複数の配列リードに関するＡ_ｉ；ｐ内の個々の位置ｉにおけるＨ_０、Ｈ_１、Ｈ_−１間のハプロタイプ割り当ての最適化により、フェージングベクトル結果

を精製することであって、

であり、

は位置ｉにおいてＨ_−１を生じる推定であり、

であり、

は前記精製されたフェージングベクトル結果であり、
Ｃは定数であり、

は推測される前記フェージングベクトル結果であり、
（Ｏ_１，ｆ、・・・、Ｏ_Ｎ，ｆ）は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールＡ_ｉ；ｐ内の前記Ｎ個のバリアントコールの各サブセットである、精製することと
を含む、前記非一時的コンピュータ可読記憶媒体。
であり、
Ｍは、前記各バーコードｆのＨ_ｆ＝０とＨ_ｆ＝１の混合を示し、

であり、

はＨ_ｆ＝Ｍが起こる尤度または確率を表す所定の分率値であり、
ｉは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記Ｎ個のバリアントコールの各サブセットにおける前記ｉ番目のバリアントであり、
ｒは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致するかを調べる指示関数であり、それらが一致する場合
の値は１となり、それらが一致しない場合
の値は０となり、

は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記ｒ番目の配列リードＳ_ｒ内の位置ｉにおける前記塩基割り当てがＡ_ｉ，ｐに一致しないかを調べる指示関数であり、それらが一致しない場合

の値は１となり、それらが一致する場合
の値は０となり、

はＡ_ｉ，ｐがＨ_−１に等しい場合に値１となり、そうでない場合は値０となる指示関数であり、
Ｑ_ｒは前記参照コンセンサス配列内の前記ｉの位置における前記リード塩基のＳ_ｒに関する品質値である、
請求項２２３に記載の非一時的コンピュータ可読記憶媒体。
生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法であって、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
（Ａ）前記試験用核酸試料の複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ＝０に割り当て、ラベル１は前記各バリアントコールをＨ＝１に割り当てる、取得することと、
（Ｂ）前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
（Ｃ）Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成

を取得することと
を含む前記方法。
バリアントコール接合状態におけるエラーを考慮しながら、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法であって、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、
１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサにより実行される１つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
（Ａ）複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当て、ラベル−１は前記各バリアントコールを接合エラー状態Ｈ_−１に割り当てる、取得することと、
（Ｂ）前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
（Ｃ）Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成

を取得することと
を含む前記方法。
における個別ｘ_ｉの前記フェーズ結果を繰り返し取り替え、前記目的関数を再計算することにより、
を取得することをさらに含む請求項２２５または２２６に記載の方法。
バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の２０〜６０個のバリアントで構成される、請求項２２５〜２２７のいずれか１項に記載の方法。
バリアントコールの各局所ブロックは、Ａ_ｉ；ｐ内の３０〜８０個のバリアントで構成される、請求項２２５〜２２７のいずれか１項に記載の方法。
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊのうちの１つの前記割り当てに対する前記ビーム探索の繰り返しは、
の所定数の解以外を全て捨てる、請求項２２５〜２２９のいずれか１項に記載の方法。
の前記所定数の解は１０００個以下である、請求項２２５〜２３０のいずれか１項に記載の方法。
の前記所定数の解は５０００個以下である、請求項２２５〜２３０のいずれか１項に記載の方法。
前記試験用核酸試料は複数のバーコード化オリゴ被覆ゲルビーズ上に搭載され、前記複数のバリアントコールＡ_ｉ；ｐを得るためにここから複数の配列リードが取得され、前記試験用核酸試料は５０ｎｇ以下である、請求項２２５〜２３２のいずれか１項に記載の方法。
前記複数のバーコード化オリゴ被覆ゲルビーズは、１０，０００個のビーズを含む、請求項２３３に記載の方法。
前記複数のバーコード化オリゴ被覆ゲルビーズは、５０，０００個のビーズを含む、請求項２３３に記載の方法。
前記試験用核酸試料は２５ｎｇ以下である、請求項２３３に記載の方法。
前記試験用核酸試料は１０ｎｇ以下である、請求項２３３に記載の方法。
前記試験用核酸試料は５ｎｇ以下である、請求項２３３に記載の方法。
前記試験用核酸試料は２．５ｎｇ以下である、請求項２３３に記載の方法。
前記複数の配列リードは、１０分以内の前記複数のバーコードの割り当てにより取得される、請求項２３３に記載の方法。
前記複数の配列リードは、２０分以内の前記複数のバーコードの割り当てにより取得される、請求項２３３に記載の方法。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサにより実行される１つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記１つまたは複数のプログラムは、方法を実行することにより生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記方法は、
（Ａ）複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当て、ラベル−１は前記各バリアントコールを接合エラー状態Ｈ_−１に割り当てる、取得することと、
（Ｂ）前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
（Ｃ）Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記コンピューティングシステム。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサにより実行される１つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記１つまたは複数のプログラムは、バリアントコール接合状態におけるエラーを考慮しながら、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記１つまたは複数のプログラムは方法を実行し、前記方法は、
（Ａ）複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当てる、取得することと、
（Ｂ）前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
（Ｃ）Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記コンピューティングシステム。
コンピュータにより実行されるように構成される１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記１つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記１つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
（Ａ）複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ_０に割り当て、ラベル１は前記各バリアントコールをＨ_１に割り当てる、取得することと、
（Ｂ）前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
（Ｃ）Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記非一時的コンピュータ可読記憶媒体。
コンピュータにより実行されるように構成される１つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記１つまたは複数のプログラムは、バリアントコール接合状態におけるエラーを考慮しながら、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第１セット（Ｈ_０）とハプロタイプ第２セット（Ｈ_１）とを含み、前記１つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
（Ａ）複数のバリアントコールＡ_ｉ；ｐを取得することであって、
ｉは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、

であり、ラベル０はＡ_ｉ；ｐ内の各バリアントコールをＨ＝０に割り当て、ラベル１は前記各バリアントコールをＨ＝１に割り当てる、取得することと、
（Ｂ）前記参照コンセンサス配列の対応サブセットに局所化されるＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
ｋはバリアントコールの前記各局所ブロックにおける前記第１バリアントであり、
ｊはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Ｘ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊの割り当ては、各計算における目的関数の前記フェージングベクトルがＸ_ｋ、Ｘ_ｋ＋１、・・・、Ｘ_ｋ＋ｊに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ａ_ｉ；ｐ内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりＡ_ｉ；ｐ内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
（Ｃ）Ａ_ｉ；ｐ内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ａ_ｉ；ｐ内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成

を取得することと
を含む、前記非一時的コンピュータ可読記憶媒体。
前記試験用核酸は複数のバーコード化オリゴ被覆ゲルビーズ上に搭載され、ここから前記複数の配列リードが取得され、前記試験用核酸は５０ｎｇ以下である、請求項１１１〜１５８のいずれか１項に記載の方法。
前記複数のバーコード化オリゴ被覆ゲルビーズは、１０，０００個のビーズを含む、請求項２４６に記載の方法。
前記複数のバーコード化オリゴ被覆ゲルビーズは、５０，０００個のビーズを含む、請求項２４６に記載の方法。
前記試験用核酸は２５ｎｇ以下である、請求項２４６に記載の方法。
前記試験用核酸は１０ｎｇ以下である、請求項２４６に記載の方法。
前記試験用核酸は５ｎｇ以下である、請求項２４６に記載の方法。
前記試験用核酸は２．５ｎｇ以下である、請求項２４６に記載の方法。
前記複数の配列リードは、１０分以内の複数のバーコードの割り当てにより取得される、請求項２４６に記載の方法。
前記複数の配列リードは、２０分以内の複数のバーコードの割り当てにより取得される、請求項２４６に記載の方法。