JP2020517304A

JP2020517304A - Ｄｎａ分析のためのオフターゲット配列の使用

Info

Publication number: JP2020517304A
Application number: JP2020507747A
Authority: JP
Inventors: デヴォーゲラーレ，ブノワ
Original assignee: アジレント・テクノロジーズ・ベルジャム・ナムローゼ・フェンノートシャップ
Priority date: 2017-04-18
Filing date: 2018-04-18
Publication date: 2020-06-18
Anticipated expiration: 2038-04-18
Also published as: EP3988672B1; WO2018192967A1; CN110475874A; CA3058845A1; EP3612644B1; EP3612644A1; US20200048715A1; EP3988672A1; JP7170711B2

Abstract

本発明の教示は、妊娠した雌から得られた生体試料における胎児の染色体異数性および／またはヘテロ接合性の欠如（ＬＯＨ）の有無を決定するための方法に関し、前記方法は、母体および胎児核酸の両方を含む生体試料のターゲットキャプチャー超並列シークエンシングの指標となる配列情報を得るステップと、前記ターゲットキャプチャー超並列シークエンシングから得られたオフターゲットリードの量を決定するステップと、前記異数性またはＬＯＨの有無を決定するための情報を前記オフターゲットリードカウントから得るステップとを含む。

Description

本発明は、対象のゲノム分析の技術分野に関する。

胎児異数性およびその他の染色体異常は、出生１０００人のうち約９人に発生する。歴史的に見て、染色体の異常状態診断の究極の判断基準は、絨毛採取（Ｃｈｏｒｉｏｎｉｃｖｉｌｌｕｓｓａｍｐｌｉｎｇ）および羊水穿刺などの侵襲性の処置によって得られた胎児細胞の核型分析であった。

母体循環中に大量のセルフリー胎児核酸が存在するという発見は、染色体異常の検出を可能にする新たな非侵襲性の出生前遺伝子検査の開発につながった。

ここ２〜３年にわたって臨床遺伝学の分野は飛躍的に進展したが、迅速で、対費用効果の高い、より正確な診断方法が依然として必要とされている。ごく最近の利用可能な方法は、非常に大量の遺伝子配列データの生成に基づいており、情報の大部分は不必要であるか、または診断前に取り除かれる。ある種の適用のために、限定された量の遺伝子材料のみが利用可能であるという事実は、当業界で公知の分析と比較してより正確で有効な分析を提供する方法の必要性を指し示す。

このような方法は、遺伝子シークエンシングの間に生成した不必要な情報を必須の遺伝子シークエンシングデータと組み合わせて、試料を採取した対象における遺伝子多型の存在を予測する方法を述べた米国特許出願公開第２０１５／０６６８２４号によって知られている。しかし、この方法は、妊娠した母親から生成した試料の分析に基づいた胎児の健康状態の予測またはモニターには適していない。

さらに、ヘテロ接合性の欠如（ＬＯＨ）は、実質的に全部の遺伝子または対立遺伝子の欠如、場合によっては周囲の染色体領域の一部、染色体腕または全染色体の欠如も引き起こす、染色体事象である。ＬＯＨは、コピー数の低減があっても、またはコピー数の低減がなくても起こることがあり、患者の特定のがんのある種の特徴を指し示し得る、多くのヒトがんの重要な特性である。したがって、治療するがん患者のＬＯＨ情報を利用するために、ＬＯＨのゲノムワイドスクリーニングのためにより速くて、より敏感で、より正確な方法が強く必要とされる。

Ｋｕｉｌｍａｎｅｔａｌ．（２０１５）およびＢｅｌｌｏｓｅｔａｌ．（２０１４）はいずれも、遺伝子シークエンシング中に生成した非必須の情報を対象におけるＤＮＡコピー数の変動の検出のために使用する方法について述べている。ＬＯＨ事象の全てがコピー数変化を生じさせるとは限らないので、これらの方法は対象におけるＬＯＨ事象の正確なゲノムワイドスクリーニングには適さない。

様々な実施形態では、本発明の教示は、診断目的には情報価値がなく、無関係であるかまたは廃棄されるデータであると従来考えられてきたものを利用する。本明細書に記載された方法は、出生前診断および腫瘍分析に適用可能なセルフリー核酸分析を実施するために特に適切であるが、異数性および遺伝子異常が疾患または症候群の進行に重要な役割を果たすその他の分野においても容易に使用することができる。

この教示は、例えば、超並列シークエンシング（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇ）技術を利用するターゲットキャプチャー法から生成された標的化または選択した領域以外に存在し得るオフターゲットリードを利用する、１つまたは複数の対象の生体試料のゲノムまたは核酸配列分析のための方法を提供する。本発明の教示による方法は、他の場合では、情報価値がないか、または無関係な遺伝子情報として見なされることがある核酸シークエンシング情報の利用を可能にする。これらの方法では、このような配列情報はむしろ、配列リードおよびデータが得られる試料の状態に関して重要で決定的でもある情報を引き出すために有利に活用され得る。これには、例えば、異数性およびヘテロ接合性の欠如（ＬＯＨ）事象に関係する情報が含まれる。様々な実施形態では、このようなオフターゲット配列データをオンターゲット配列データから得られたものと組み合わせることによって、試料から抽出した核酸はより効率的に使用することができ、試料の全体的な量および以後の操作要件を低減させる。既存の試料処理および配列分析の流れに対するこのような強化は、（胎児染色体の評価および循環腫瘍の分析などの適用を含む）セルフリー分析の分野において特に重要である。このような適用では、典型的には少量の、またはごく限られた量の遺伝子材料のみが利用可能なことがあり、したがって、オフターゲットおよびオンターゲット配列情報の両方を考慮してさらなる分析または診断の知見を引き出すために試料の配列データをより完全に利用することは、本発明の教示の望ましい態様である。

本発明の教示は、例えば、ターゲットキャプチャー超並列シークエンシング法によって試料分析を実施するときに生成されたオフターゲットリードに関連した配列データを評価することによって、対象のゲノム分析を含む適用において使用することができる配列分析の方法を提供する。このようなオフターゲット配列リードは、情報価値がないと見なされ、見落とされるかまたは廃棄されることが多い。本発明の技術および適用の発明者は、配列データにおけるオフターゲットリードを活用することによって、染色体異常、例えば、胎児異数性の検出に役立つ有用な知見および改善が得られることを示唆する。オフターゲットリードはまた、特にシャロウシークエンシング法において現在利用可能な技術では不可能ではないにしても非常に困難であり得る、ヘテロ接合性の欠如（ＬＯＨ）のゲノムワイド検出を含むその他の配列分析適用のために有用なツールである。

他に規定しない限り、本発明の教示の発明の態様の開示で使用した用語は全て、技術用語および科学用語を含めて、本発明が関する分野の当業者が通常理解している意味を有する。さらなる指針によって、用語の定義は、本発明の教示をより理解するために含まれる。

本明細書では、以下の用語は以下の意味を有する。
本明細書で使用した「Ａ」、「ａ」および「ｔｈｅ」は、文脈が明確に他に指示しない限り、単数および複数両方の指示対象を意味する。例として、「区画（ａｃｏｍｐａｒｔｍｅｎｔ）」は、１つまたは１つより多くの区画を意味する。

パラメータ、量、一時的な期間などの定量可能な、または測定可能な値について本明細書で使用した「約（Ａｂｏｕｔ）」は、指定した値の、および指定した値からの＋／−２０％以下、好ましくは＋／−１０％以下、より好ましくは＋／−５％以下、さらにより好ましくは＋／−１％以下、さらにより好ましくは＋／−０．１％以下の変動が開示した発明において実施するために適切である限り、このような変動を包含することを意味している。しかし、修飾語「約（ａｂｏｕｔ）」が示す値はまた、それ自体特に開示されていることを理解されたい。

本明細書で使用した「含む（ｃｏｍｐｒｉｓｅ）」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」および「含む（ｃｏｍｐｒｉｓｅｓ）」および「を含む（ｃｏｍｐｒｉｓｅｄｏｆ）」は「含む（ｉｎｃｌｕｄｅ）」、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」または「含有する（ｃｏｎｔａｉｎ）」、「含有している（ｃｏｎｔａｉｎｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｓ）」と同義であり、それに続くもの、例えば、成分の存在を指定し、当業界で公知であるか、または開示されている追加的な列挙されていない成分、特性、要素、メンバー、ステップの存在を排除または除外しない包括的または非限定的な用語である。

終点による数値範囲の列挙は、その範囲内に含まれる数字および画分全てならびに列挙された終点を含む。

表現「重量％」、「重量パーセント」、「％ｗｔ」または「ｗｔ％」は、特に規定しない限り、本明細書および説明全体にわたって、配合物の全重量に基づいたそれぞれの成分の相対的重量を意味する。

本明細書で使用した用語「生体試料」は、対象（例えば、妊娠した女性などのヒトまたはその他の生物体）から得られ、または対象に関連し、目的の１つまたは複数の核酸分子を含有する任意の試料を意味する。

用語「超並列シークエンシング（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇ）」または「次世代シークエンシング」は、生成したシークエンシングライブラリーに基づいた、ＤＮＡを含む核酸をシークエンシングするためのハイスループットアプローチにおいて使用される技術を意味する。

用語「ターゲットキャプチャー超並列シークエンシング」は、配列決定するべき核酸試料をターゲットキャプチャーステップによって濃縮することができ、前記ターゲットキャプチャーをＲＮＡまたはＤＮＡプローブなどの任意の適切な手段に基づいて実施することができる超並列シークエンシング技術を意味する。このような濃縮法は、配列決定するべき標的または断片の全体量、数または複雑さを低減し、選択した、または所望する標的遺伝子（例えば、染色体）領域を試験することによって分析の全体的な困難さまたは費用を低減するために使用することができる。

ターゲットキャプチャーの技術に関連した用語「パネル」、「プローブ」または「ベイト」は、所望する核酸断片（例えば、特定の配列、相同性または親和性を有する断片または領域）を標的化するかまたは選択するために、あるいは特定のターゲットキャプチャー法によって選択された遺伝子領域を調べるために使用した分子、部分または領域を含むことができる。

用語「オフターゲットリード」は、選択した配列のターゲットキャプチャーが、例えば、プローブのＤＮＡとの不完全なハイブリダイゼーションのため、非特異的配列断片の一部またはある量のプローブもしくはベイトと核酸試料との特異ではない対合、したがって、期待されるパネル、プローブもしくはベイト外の特異ではない対合を生じる、超並列シークエンシングの工程によって得られたリードであると理解されたい。

用語「オンターゲットリード」は、ターゲットキャプチャー超並列シークエンシングのプロセスによって得られ、使用したパネル、プローブまたはベイトと試料核酸との期待される、または特異的な対合、したがって、キャプチャーパネルプローブまたはベイトと一致した対合の結果である、シークエンシングリードであると理解されたい。

本明細書では、用語「母体試料」は、少なくとも１人の妊娠した対象、例えば、女性から得られた生体試料を意味する。

本明細書では、用語「対象」は、ヒト対象ならびに非ヒト対象または哺乳類、無脊椎動物、脊椎動物、真菌、酵母、細菌およびウイルスなどの生物体を意味する。本明細書の例はヒトゲノムに関し、言葉は主にヒト関連を対象としているが、本発明の教示は任意の生物体、植物または動物のゲノムに適用可能で、限定はしないが、獣医学、動物科学および研究施設を含む様々な分野において有用であり得ることを理解されたい。

本明細書では、用語「生体液」は、生物原料から採取された液体を意味し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液、胞胚腔液などが含まれる。これはまた、細胞、組織または胚を培養することができるインビトロ培養媒体のような生体試料が増殖できる媒体を意味する。本明細書で使用したように、用語「血液」、「血漿」および「血清」は、それらの画分または処理部分を明確に包含する。同様に、試料が生検、スワブ、スメアなどから採取される場合、「試料」は生検、スワブ、スメアなどから得られた処理画分または部分を明確に包含する。

本明細書では、用語「母体核酸」は妊娠した雌対象の核酸を意味し、「胎児核酸」は妊娠した雌が有する胎児の核酸を意味する。前に説明したように、「胎児核酸」および「胎盤性核酸」は、２つの種類の核酸の間には生物学的差が存在し得るが、同じ種類の核酸を意味するために使用されることが多い。

本明細書で使用した用語「胎児画分」は、胎児および母体核酸を含む試料中に存在する胎児核酸の画分の表現または濃度を意味する。

本明細書では、用語「コピー数多型」または「ＣＮＶ」は、第２の、または適格な試料中に存在する核酸配列のコピー数と比較して、第１の、または試験試料中に存在する２、３塩基対（ｂｐ）またはそれ以上の核酸配列のコピー数の変動を意味する。「コピー数バリアント」は、コピー数の差が、試験試料中の目的の配列を適格な試料中に存在する配列と比較することによって見いだされる、２、３ｂｐまたはそれ以上の核酸の配列を意味する。非限定的なコピー数バリアント／多型には、微少欠失を含む欠失、微少挿入を含む挿入、重複および複製が含まれる。ＣＮＶは、染色体異数性および部分的異数性を包含することができる。

本明細書では、用語「異数性」は、染色体全体または染色体の一部の欠如または獲得によって引き起こされる遺伝子物質の不均衡を意味する。異数性は、限定はしないが、欠失、微少欠失、挿入、微少挿入、コピー数多型、重複などの染色体ならびに染色体部分両方の不均衡を意味する。コピー数多型は、２、３ｂｐから数Ｍｂ、特定の場合では１ｋｂから数Ｍｂの範囲の大きさで変化し得る。数十Ｍｂの領域に亘る、および／または染色体腕のかなりの部分に対応する大きな染色体部分の異常状態はまた、セグメント異数性と呼ばれることがある。

本明細書では、用語「染色体異数性」は、染色体全体の欠如または獲得によって引き起こされる遺伝子物質の不均衡を意味し、生殖系列異数性およびモザイク異数性を含む。

用語「ヘテロ接合性の欠如またはＬＯＨ」は、実質的に全部の遺伝子または対立遺伝子の欠如、場合によっては周囲の染色体領域の一部、染色体腕または全染色体の欠如も引き起こす、染色体事象を意味する。

用語「リード」は、その組成および長さ（例えば、約２０ｂｐまたはそれ以上）を使用してより大きな配列または領域、例えば、染色体位置またはゲノム領域または遺伝子に整列させ、特異的に割り当てることができる配列部分または断片を同定することができる、実験的に得られたＤＮＡ配列を意味する。用語「リード」、「配列リード」および「配列」は、本明細書全体にわたって同義に使用することができる。

用語「リードカウント」は、ゲノム参照などの参照配列または前記参照ゲノムの一部に位置づけることができる、試料に関連したリードの数を意味する（リードカウントは、参照に関してそれらが位置づけられた位置に基づいて、一緒に分割（ｂｉｎ）またはグループ分けすることができる）。

本明細書で使用した用語「参照ゲノム」または「参照配列」は、デジタルの核酸配列データベースに含有されるものなどの試料とは明確に区別される予め決定された配列情報を意味する。参照ゲノムまたは配列は、選択された生物体または種の核酸と関連した核酸配列の少なくとも一部を表す配列情報の集合体または構築物であってもよい。参照ゲノムまたは配列は、多数の試料の核酸のシークエンシングから構築することができ、したがって、参照ゲノムまたは配列は必ずしも単一の生物体の正確な組成を表す必要はない。様々な実施形態では、このような参照を使用して１つまたは複数の試料からのシークエンシングリードを特異的または標的の染色体または遺伝子配列の位置にマッピングすることができる。

本明細書では、用語「試験試料」は、コピー数が変動を起こしていることが疑われる少なくとも１つの核酸配列、または１コピー数多型が存在するかどうかを決定することが望まれる少なくとも１つの核酸配列を含む、複数の核酸または核酸の混合物を含む試料を意味する。試験試料中に存在する核酸は、試験核酸または標的核酸または標的染色体または標的染色体セグメントと呼ばれる。

本明細書では、用語「参照試料」は、本明細書で以下に記載し、特許請求の範囲内にあるスコアおよびパラメータを分析または計算するために、そのシークエンシングデータが試験試料のシークエンシングデータと一緒に使用される、複数の核酸または核酸の混合物を含む試料を意味する。様々な実施形態では、必ずではないが、参照試料は、好ましくは目的の配列について正常または野生型（例えば、異数体ではない）である。異数性分析では、参照試料は、トリソミー２１などの異数体状態の指標となる配列を含まず、試験試料中のトリソミー２１などの異数性の存在を同定するために使用することができる適格な試料であってもよい。

用語「参照セット」は、複数の「参照試料」を含む。

ゲノムの用語「ｂｉｎ」は、ゲノムのセグメントと理解されたい。ゲノムは、固定された、または予め決定された大きさまたは変動可能な大きさのいずれかのいくつかのｂｉｎに分類することができる。可能な固定されたｂｉｎの大きさは、例えば、１０ｋＢ、２０ｋＢ、３０ｋＢ、４０ｋＢ、５０ｋＢ、６０ｋＢ、７０ｋＢなどであってよく、ｋＢはキロ塩基対を表し、１単位は１０００塩基対に対応する。

用語「ウインドウ（ｗｉｎｄｏｗ）」は、複数のｂｉｎと理解されたい。

用語「整列した」、「アラインメント」、「位置づけた」または「整列」、「マッピング」は、核酸分子の順番に関して参照ゲノムの公知の配列と一致していると同定される１つまたは複数の配列を意味する。このようなアラインメントは、手動で、またはコンピュータアルゴリズムによって行うことができ、例としてはＩｌｌｕｍｉｎａＧｅｎｏｍｉｃｓＡｎａｌｙｓｔｓｐｉｐｅｌｉｎｅの一部として配布されたＥｆｆｉｃｉｅｎｔＬｏｃａｌＡｌｉｇｎｍｅｎｔｏｆＮｕｃｌｅｏｔｉｄｅＤａｔａ（ＥＬＡＮＤ）コンピュータプログラムが含まれる。整列中の配列リードの一致は、１００％配列一致または１００％未満の一致（不完全な一致）であってもよい。

本明細書では用語「パラメータ」は、定量データセットおよび／または定量データセット間の数値の関係を特徴づける数値を意味する。

本明細書で使用した用語「カットオフ値」または「閾値」は、その値が生体試料の分類の２つ以上の状態（例えば、疾患と非疾患）の間を調停するために使用される数値を意味する。例えば、パラメータがカットオフ値より大きい場合、定量データの最初の分類が形成され（例えば、疾患状態）、または、パラメータがカットオフ値より小さい場合、定量データの異なる分類が形成される（例えば、非疾患状態）。

本明細書で使用した用語「不均衡」は、臨床上関係のある核酸配列の量において少なくとも１つのカットオフ値によって定義されるような、参照量からの任意の著しい偏差を意味する。例えば、参照量が３／５の比であり、測定された比が１：１ならば、不均衡が生じるだろう。

本発明の目的は、ターゲットキャプチャー超並列シークエンシング中に得られたオフターゲットリードに基づいた試料の遺伝子分析法を提供することである。これらのオフターゲットリードは、総合的な出生前診断を実施するために特に有用であることが見いだされたが、例えば、がんパネルにおける異数性、変異またはＬＯＨなどのＤＮＡにおける異常の検出にも有用である。従来の方法においては考慮されなかったオフターゲットリードを使用することによって、限定された量の利用可能なＤＮＡ（特に、開始点としてセルフリーＤＮＡを使用するとき）およびＤＮＡから得られたシークエンシングデータを最適に使用する。オフおよびオンターゲットリードの両方は、１試料に対する１つまたは複数の分析のために同時に使用することができ、それによって、普通ならオンターゲットリードに焦点を当てるか、またはオンターゲットリードを保持するだけのライブラリー調製および次世代シークエンシング（ＮＧＳ）および／またはバイオインフォマティックまたは計算処理ステップなどの必要な取り扱いステップの量を限定する。したがって、量が限定された物質は、最も適した方法で使用される。

第１の場合、本発明の教示は、妊娠した雌から得られた生体試料における胎児の染色体異数性または胎児のヘテロ接合性の欠如（ＬＯＨ）の有無を決定するための方法を提供する。前記方法は特に、以下のステップ、
− 母体および胎児の核酸の両方を含む生体試料のターゲットキャプチャー超並列シークエンシングの指標となる配列情報を得るステップ、
− 前記ターゲットキャプチャー超並列シークエンシング中に得られたオフターゲットリードの量を決定するステップ、および
− 胎児異数性または胎児ＬＯＨの有無を決定するための情報を前記オフターゲットリードカウントから得るステップを含む。

詳細には、この方法は、妊娠した母親から採取した生体試料から母体および胎児ＤＮＡを得ることが必要である。この生体試料は血液であってもよいが、唾液または血清または母親から得られ、母親および胎児両方から遺伝子データを得るために有用な任意のその他の試料であってもよい。試料中のセルフリーＤＮＡは、シークエンシングの前にＤＮＡの一部を得るために、標的化濃縮を行う。

標的化濃縮のために様々な方法が当業界で知られており、ハイブリッドキャプチャー法およびＰＣＲに基づく単位複製配列キャプチャー技術の両方が含まれる。このような方法の例には、例えば、ＡｇｉｌｅｎｔＩｎｃ．社のＳｕｒｅｓｅｌｅｃｔ（登録商標）、ＲｏｃｈｅＩｎｃ．社のＮｉｍｂｌｅｇｅｎ（登録商標）およびＩｌｌｕｍｉｎａＩｎｃ．社のＴｒｕＳＥｑ（登録商標）が含まれる。標的化濃縮の方法は典型的に、ゲノムまたは単離された核酸内の所望される、または期待される領域とハイブリダイズするか、または関連することができる標識された核酸またはその他の分子プローブの使用に基づく。その後のステップでは、ハイブリダイズしないプローブは洗い流され、ハイブリダイズしたプローブは捕捉され、試料から単離される。この捕捉は、標識の存在によって実施される。前記標識は、標識およびハイブリダイズした領域の両方の捕捉を可能にする第２の分子に結合、関連または連結することができる。当業界で公知の適切な標識は、例えば、ストレプトアビジンまたはアビジンに結合することができるビオチンである。

その後のステップでは、捕捉された領域は、増幅され、配列決定される。したがって、ＤＮＡ領域は単離され、濃縮される。ハイブリダイゼーションは、目的とする断片と一緒に大量のオフターゲット断片を捕捉する、敏感であるがまだ不完全なプロセスであるので、前述した方法によるＤＮＡの濃縮は、本質的にオフおよびオンターゲットリードの両方の生成を引き起こす。

本発明の一実施形態では、本方法で使用されるプローブは予め規定された標的領域に対して特異的に設計される。プローブを形成するための適切なパネルまたはベイトには、微少欠失、ＣＮＶ、例えば、小さな反復性ＣＮＶまたは公知の繰り返し領域が含まれる。一実施形態では、前記プローブは、反復性ＣＮＶを含有することが知られている１つまたは複数の領域あるいは前記反復性ＣＮＶに隣接する領域を対象とする。

本発明の別の実施形態では、前記プローブは無作為に設計され、特定のパネルまたはベイトを対象としない。

ベイトまたはパネルの大きさは、好ましくは、０．１ｋＢから１００Ｍｂの間、より好ましくは１ｋｂと５０Ｍｂの間、ｌｋｂと１０Ｍｂの間、１０ｋＢと１Ｍｂの間、さらにより好ましくは２０ｋＢと０．５Ｍｂの間である。

オフターゲットリードは、技術的にはプローブの特異ではない結合によるが、本発明の発明者らは、プローブの特異ではない結合における傾向を認めた。言い換えると、オフターゲットリードは、完全に無作為ではないが、使用したプローブの配列によって影響を受ける。結果として、１つまたは複数の参照試料から参照セットを組み立てることができる。参照試料の前記セット（または参照セットともいう）は、使用者が予め規定するか、または選択することができる（例えば、使用者自身が所有する参照試料から選択する）。使用者が自身の参照セットを使用することを許可することによって、使用者は使用者の環境の頻発する技術的変動およびその変数（例えば、異なるウェットラボ試薬または方法、異なるＮＧＳ機器またはプラットフォームなど）をより捕捉することができるようになる。さらに、高レベルの自動化を使用することによって、例えば、ヒトの取り扱いに関連した技術的変動が低減される。好ましい実施形態では、前記参照セットは、（関係する）異数性、ＬＯＨまたはその他のゲノム異常を含有しないことが予測される、または知られている「健康な」試料のゲノム情報を含む。

本発明の目的のために、オフターゲットリードカウントの量は少なくとも１×１０^６、より好ましくは少なくとも２×１０^６、３×１０^６、４×１０^６、５×１０^６、６×１０^６、７×１０^６、８×１０^６、９×１０^６、１０×１０^６リードカウントであるべきである。

前記配列は、次世代シークエンシングによって得られる。好ましくは、ディープシークエンシングとも呼ばれる適用範囲の広いシークエンシング法が使用される。さらに好ましい実施形態では、全部でｌ×ｌ０^６〜１００×１０^６の間のリード、より好ましくは１０×１０^６〜５０×１０^６の間のリード、さらにより好ましくは２０×１０^６のリードなどの１５×１０^６〜３０×１０^６の間のリードが生成する。

ペアエンドリードおよびシングルリードの両方が本発明の技術において使用され得る。

好ましくは、シングルリードＮＧＳは、シークエンシング費用を低くすることが可能なシングルリードシークエンシングとして使用される。

前記ターゲットキャプチャー超並列シークエンシングからＮＧＳリードを得た後、リードを参照ゲノムまたは参照ゲノムの一部（ｂｉｎ）に位置づける。前記マッピングは、リードを前記参照ゲノムに整列することによって生じる。

その後、オフターゲットおよびオンターゲットリードを分離し、それによってオフターゲットリードを単離する。好ましくは、オフターゲットリードの同定または単離は、自動化法、例えば、当業者に公知で、プローブの標的化領域を考慮に入れる適切なソフトウェアを使用することによって行われる。

オフターゲットリードのリードカウントを決定する。別の、またはさらなる実施形態では、オンおよびオフターゲット両方のリードカウントを決定する。オンおよび／またはオフターゲットリード両方のリードの全量は、参照ゲノム、ｂｉｎまたはウインドウ内の位置に基づいてさらに細分することができる。好ましくは、リードカウントはｂｉｎ当たりで決定される。

さらなるステップでは、一旦得られたら、リードカウントは場合により正規化することができる。リードは、リードの全数について正規化することができ、試料はリードの予め規定した量（例えば、１×１０^６リードまたはそれ以上）に設定する。別の、またはさらなる実施形態では、正規化は参照試料のセットを基にして行うことができ、前記参照試料は、好ましくは、必要というわけではないが、正倍数体または本質的に正倍数体である。このような参照セットは様々な試料の大きさを有していてもよい。可能な試料の大きさは、例えば、男性試料５０および女性試料５０などの１００試料であってもよい。参照セットは使用者が自由に選択することができることは当業者によって理解されるだろう。好ましくは、このような正規化は、ｂｉｎまたはウインドウレベルで行う。

好ましくは、リードの前記数は、ＧＣ含量および／または前記試料から得られたリードの全数を補正するために較正し直す。ＧＣバイアスは、ゲノムアセンブリを悪化させることが知られている。様々なＧＣ補正が当業界では知られている。好ましい実施形態では、前記ＧＣ補正は、ＬＯＥＳＳ回帰である。一実施形態では、本発明による方法の使用者は、様々な可能なＧＣ補正の選択を行うことができる。

ＧＣ補正の詳細な説明は、内容の全体を本明細書に組み込んだ国際出願ＰＣＴ／ＥＰ２０１６／０６６６２１号に見いだすことができる。

オフターゲットリードカウントはその後、胎児異数性もしくは胎児ＬＯＨの有無、またはＬＯＨもしくは異数性（例えば、がんパネルにおいて、さらに参照のこと）の全般的な存在に関する情報を得るために使用することができる。

オフターゲットリードに基づいた胎児異数性が存在するかどうかの決定は、セルフリーＤＮＡに基づいた胎児異数性またはＬＯＨの検出を可能にする当業界で公知の任意のアルゴリズムによって行うことができる。このようなシステムには、Ａｇｉｌｅｎｔ社のＯｎｅＳｉｇｈｔ（登録商標）アルゴリズム、Ｉｌｌｕｍｉｎａ社のＶｅｒｉＳｅｑ（商標）またはＳｅｑｕｅｎｏｍ社のＭａｔｅｒｎｉＴ２１（登録商標）Ｐｌｕｓが含まれる。全般的に、得られたリードからパラメータを得ることができ、パラメータが異数性の有無の指標である公知のアルゴリズムは全て、使用することができる。

特に適切な方法は、内容の全体が参考として本明細書の一部をなす国際出願ＰＣＴ／ＥＰ２０１６／０６６６２１号に記載されている。手短に説明すると、場合によってはＧＣ含量および／または前記試料から得られたリードの全数について補正されたアラインメントおよび得られたオフターゲットリードカウントまたはそれらの派生物から、最終的に試料中の異数性の存在の決定を可能にするパラメータを導くスコアが計算される。前記スコアは、リードカウントまたは数学的に修飾されたリードカウントから得られた正規化された値であり、正規化は使用者が定義した参照セットを考慮して行う。したがって、各スコアは参照セットとの比較によって得られる。本発明の方法はグランドトルースのデータまたは知識の練習を必要としないことに注意しなければならない。本発明の教示による分析は、参照セットの性質を使用することができ、末端使用者による個人の選択も好みのセットも必要としない。さらに、使用者が独自のデータベースを利用する必要なく、容易に実行することができる。

用語第１スコアは、標的染色体または染色体セグメントのオフターゲットリードカウントに関連したスコアを意味するために使用される。スコアの集合体は、前記標的染色体セグメントまたは染色体のリードの正規化された数を含んでもよいリードの正規化された数のセットから得られたスコアのセットである。好ましくは、前記第１スコアは、標的染色体または染色体セグメントのＺスコアまたは標準的スコアを表す。好ましくは、前記集合体は、前記標的染色体セグメントまたは染色体を含む染色体または染色体セグメントの対応するセットから得られたＺスコアのセットから得られる。

好ましくは、前記第１スコアは標的染色体または染色体セグメントのＺスコアまたは標準的スコアを表す。好ましくは、前記集合体は、前記標的染色体セグメントまたは染色体を含む染色体または染色体セグメントの対応するセットから得られたＺスコアのセットから得られる。

最も好ましい実施形態では、第１スコアおよびスコアの集合体は、標的染色体もしくは染色体セグメント、または、標的染色体もしくは染色体セグメントを含む全常染色体もしくは染色体（またはそれらの領域）のいずれかのゲノム表示に基づいて計算される。

このようなスコアは以下のように計算することができる。
ｉはウインドウまたは染色体または染色体セグメントであり、ｒｅｆは参照セットを意味する。

スコアの前記集合体の要約統計量は、例えば、個々のスコアの平均値または中央値として計算することができる。スコアの前記集合体の別の要約統計量は、個々のスコアの標準偏差または中央値絶対偏差または平均絶対偏差として計算することができる。

前記パラメータｐは、スコアの集合体の第１スコアおよび派生物（例えば、要約統計値）の関数として計算することができる。好ましい実施形態では、前記パラメータは、スコア（またはそれらの派生物）の集合体によって補正された第１スコアとスコアの前記集合体の派生物との間の比となるか、または相関関係となる。

別の実施形態では、前記パラメータは、スコアの第１集合体の要約統計量によって補正された第１スコアと、スコアの異なる第２集合体の要約統計量との間の比となるか、または相関関係となり、スコアの両集合体は第１スコアを含む。

特定の好ましい実施形態では、前記パラメータｐは、スコアの前記集合体の要約統計量によって補正された第１スコアと、スコアの前記集合体の要約統計量との間の比または相関関係である。好ましくは、要約統計量は、平均、中央値、標準偏差、中央値絶対偏差または平均絶対偏差から選択される。一実施形態では、関数で使用した前記両要約統計量は同じである。別のより好ましい実施形態では、スコアの集合体の前記統計量は、分子および分母が異なる。

典型的には、本発明の教示による適切な実施形態は、以下のステップを含む（生体試料に対するシークエンシング工程からオフターゲット配列を得た後）。
− 前記得られた配列を参照ゲノムに対して整列させるステップ、
− 染色体セグメントおよび／または染色体のセットについてオフターゲットリードの数を計数するステップ、それによってリードカウントが得られ、
− 前記オフターゲットリードカウントまたはそれらの派生物を、正規化されたリードの数に正規化するステップ、
− 前記正規化されたリードの第１スコアおよびスコアの集合体を得るステップ、ここで、前記第１スコアが標的染色体または染色体セグメントの正規化したリードから得られ、スコアの前記集合体が前記標的染色体セグメントまたは染色体を含む染色体または染色体セグメントの対応するセットから得られたスコアのセットであり、
− 前記第１スコアおよびスコアの前記集合体からパラメータｐを計算するステップであって、前記パラメータが、
^＊スコアの前記集合体の要約統計量によって補正された前記第１スコアと、
^＊スコアの前記集合体の要約統計量との間の比または相関関係を表すステップ。

可能なパラメータｐは以下のように計算することができ、
式中、Ｚｉは第１スコアを表し、Ｚｊはスコアの集合体を表し、ｉは標的染色体または染色体区分を表し、ｊは前記標的染色体セグメントもしくは染色体ｉを含む染色体または染色体セグメントｉ、ａ、ｂ、・・・の集合体を表す。

別の実施形態では、前記パラメータｐは、
として計算され、式中、Ｚｉは第１スコアを表し、Ｚｊはスコアの集合体を表し、ｉは標的染色体または染色体区分を表し、ｊは前記標的染色体セグメントもしくは染色体ｉを含む染色体または染色体セグメントｉ、ａ、ｂ、・・・の集合体を表す。

さらに別の最も好ましい実施形態では、前記パラメータｐは、
として計算され、式中、Ｚｉは第１スコアを表し、Ｚｊは第２スコアの集合体を表し、ｉは標的染色体または染色体区分を表し、ｊは前記標的染色体セグメントもしくは染色体ｉを含む染色体または染色体セグメントｉ、ａ、ｂ、・・・の集合体を表す。

データセット×＿ｌ、×＿２、…、×＿ｎの前記ＭＡＤは、
「ＭＡＤ」＝１．４８２６×「中央値」（｜ｘ＿ｉ−「中央値」（ｘ）｜）
としてコンピュータ計算される。
係数１．４８２６を使用しない代替ＭＡＤも使用することができる。

係数１．４８２６は、変数ｘが通常、平均μおよび標準偏差σで分布する場合、ＭＡＤスコアがｌａｒｇｅｎについてσに収束するように使用する。これを確実にするために、定数係数が１／（（Φ＾（−１）（３／４）））と等しく、Φ＾（−１）が標準正規分布の累積分布係数の逆数であることを導き出すことができる。

オフターゲットリードから得られたデータに基づいて計算したパラメータｐは、その後、例えば、２つの染色体領域（または領域のセット）の量の比に関して、参照量と比較して変化が存在する（すなわち、不均衡）かどうかを決定するために、カットオフ値と比較することができる。カットオフ値は任意の数の適切な方法から決定することができる。このような方法には、ベイズタイプの尤度法、逐次確率比試験（ＳＰＲＴ）、偽発見、信頼区間、受信者操作特性（ＲＯＣ）が含まれる。より好ましい実施形態では、前記カットオフ値は統計学的考察に基づくか、または生体試料を試験することによって実験的に決定される。カットオフ値は、試験データまたは検証セットによって検証することができ、必要であれば、より多くのデータが利用可能ならいつでも修正することができる。一実施形態では、使用者は、実験または以前の実験に基づいて実験的に、または、例えば、標準的な統計学的考察に基づいて、それ自体のカットオフ値を定義することができる。使用者が試験の感度を増加させたいならば、使用者は閾値を低くする（すなわち、閾値を０に近づける）ことができる。使用者が試験の特異性を増加させたいならば、使用者は閾値を高くする（すなわち、閾値を０からさらに離す）ことができる。使用者はしばしば感受性と特異性の間のバランスを見つけることが必要になり、このバランスはしばしば研究室および適用特異的であり、したがって、使用者が自分自身で閾値を変化させることができるならば便利である。

得られたパラメータとカットオフ値との比較に基づいて、異数性の有無を見いだすことができる。

好ましくは、本発明による方法は、本明細書で記載した方法およびキットによって潜在的に同定することができる染色体異常状態の非限定的なリストを含有する表１に挙げたセグメントまたは欠失に関連した異数性を分析するために特に適切である。

さらなる、またはその他の実施形態では、標的染色体は染色体Ｘ、Ｙ、６、７、８、１３、１４、１５、１６、１８、２１および／または２２から選択される。

本発明による方法は、ＬＯＨの有無を評価するために同様に使用することができる。後者は、オフターゲットリードを十分に覆う位置のセット全体のＢ対立遺伝子頻度（ＢＡＦ）の変化を検出することができる当業界で公知の任意のアルゴリズムを使用することによって実施することができる。本発明の方法は、ＬＯＨのゲノムワイドスクリーニングを可能にする第１の方法である。

これは特に、完全に無作為ではないオフターゲットリードの性質のためである。

セルフリーＤＮＡの濃度は典型的には低いので、結果として、１試料に対して実施することができる異なる遺伝子試験の量は限定される。本発明は、総合的な遺伝子情報を生成するために今まで使用されていなかったデータの使用を可能にする。

一方、オンターゲットリードも試料のさらなる分析のために利用可能で、試料の最大限の使用を可能にする。オフターゲットリードは、試料の１つまたは複数の臨床面の分析に役立てることができ、オンターゲットリードは同じ試料の１つまたは複数の第２の臨床面の分析に利用することができる。

したがって、本発明はまた、胎児異数性および／またはＬＯＨの有無の検出ならびに胎児画分および／または１試料から得られた遺伝子情報における微少欠失および／または異常の存在の決定のための方法を対象とし、試料に前述した条件下でターゲットキャプチャー超並列シークエンシングを行い、（場合によってはオンターゲットと組み合わせた）オフターゲットリードカウントは胎児異数性および／またはＬＯＨの有無の決定のために使用し、オンターゲットリードカウントは胎児画分および／または微少欠失の存在の決定のために使用する。

オンターゲットリードに基づく胎児画分の決定は、シングルエンドリードに基づいた胎児画分決定を可能にする当業界で公知の任意のアルゴリズム、特に、参考として本明細書の一部をなす国際出願ＰＣＴ／ＥＰ２０１６／０６６６２１号に記載されたような方法によって行うことができた。手短に説明すると、胎児画分の決定は、配列のオンターゲットリードカウント、好ましくは胎児には存在するが母親には存在しない、または母親においてヘテロ接合体であるＣＮＶの決定に依拠する。後者では、プローブは、好ましくは、集合体において比較的高い頻度を有する公知の反復性ＣＮＶのパネルを対象とするターゲットキャプチャー超並列シークエンシングにおいて使用される。オンターゲットリードは胎児画分の決定のために使用される一方、生成されたオフターゲットリードは胎児画分および／またはＬＯＨの存在の決定の基盤である。

胎児画分の決定に続いて、微少欠失および／または異常の検出もオンターゲットリードの生成に基づいていてもよい。好ましくは、パネルまたはベイトは、臨床上関係があることが知られている反復する微少欠失のセットを覆うために選択されてよい。場合によっては、ＰＣＲ重複は、ライブラリーの調製ステップ中に排除され得るだろう。重複の除去に適切なツールには、例えば、分子バーコードおよび／または位置に基づいた重複排除の使用が含まれる。得られたオンターゲットリードはその後、当業界で公知のアルゴリズムに基づいて、微少欠失の有無のさらなる検出の基盤を形成する。

本発明の方法によって分析することができる適切な微少欠失は、限定されないが、ディジョージ症候群、プラダー・ウィリー症候群、アンジェルマン症候群、神経線維腫症Ｉ型、神経線維腫症ＩＩ型、ウィリアムス症候群、ミラー・ディーカー症候群、スミス・マギニス症候群、ルビンシュタイン・テイビ症候群、ウォルフ・ヒルショルン症候群およびポトキ・ラピスキー（１ｐ３６欠失）を含む症候群と関係がある。

適切な標的パネルは、前述の症候群に関係があることが知られている領域を対象とすることができる。

要約すると、本発明は、使用者が妊娠した女性のセルフリー画分中に存在するＤＮＡにおける異数性状態およびＬＯＨの存在に関する情報を生成するのを可能にする。同時に、胎児画分および微少欠失の存在に関する情報も同様に得ることができ、いずれもセルフリーＤＮＡの限定された量から多数のライブラリー調製を実施する必要がない。ライブラリー調製を実施するために試料を分割する必要がなく、例えば、反応混合物中に存在する胎児ＤＮＡ分子の絶対量をさらに低減させるので、これは有利である。

本発明の方法は、胎児領域中におけるセルフリーＤＮＡに基づいた異数性の検出に限定されない。本発明の方法は、同様にゲノムＤＮＡ、ＦＦＰＥＤＮＡまたは任意のその他の適切な種類のＤＮＡから開始して使用することができる。したがって、本発明はまた、例えば、がん検出、予防および／またはリスク評価の分野において、異数性および／またはＬＯＨ事象の全般的な検出のために使用することができる。オフターゲットリードの生成に基づいた本発明の方法は、特にＬＯＨについて今まで不可能であったゲノムワイドスクリーニングを可能にする。

したがって、本発明は同様に、対象から得られたＤＮＡ試料中における異数性および／またはヘテロ接合性事象の欠如（ＬＯＨ）を検出するための方法に関し、前記方法は、
− 前記ＤＮＡのターゲットキャプチャー超並列シークエンシング、
− オンターゲットリードからのオフターゲットリードの分離、
− 前記ターゲットキャプチャー超並列シークエンシング中に得られたオフターゲットリードの量の決定、および
− 前記対象における前記異数性またはＬＯＨの有無の決定のための情報の前記オフターゲットリードからの獲得が含まれる。

当業者には、母体試料の分析のための前述のような態様は、同様にこの全般的な方法に大部分が適用されることが明らかであろう。

好ましくは、前述のような方法はいずれもコンピュータによって実施される。この目的のために、本発明は同様に、（胎児）異数性の（出生前）診断および／または（胎児）異数性、ＬＯＨ、微少欠失のスクリーニングおよび／または対象から得られた生体試料中における胎児画分の決定を実施するための操作を実施するコンピュータシステムを制御するための複数の指示でコードされたコンピュータ読み取り可能な媒体を含み、生体試料が核酸分子を含む、コンピュータプログラム製品に関する。

このような操作は、
− （患者または妊娠した雌のいずれかの）生体試料中に含有される核酸分子の少なくとも一部の配列を受容するステップ、
− 前記得られた配列を参照ゲノムに整列させるステップ、
− オフターゲットリードからオンターゲットリードを分離するステップ、
− オフターゲットリードおよび、場合によってオンターゲットリードの数を計数するステップ、
− 前記リードカウントまたはそれらの派生物をリードの正規化された数に正規化するステップ、
− パラメータをオフターゲットリードに基づいて計算し、前記パラメータが（胎児）異数性またはＬＯＨの存在の指標であるステップを含む。

前記操作は、使用者または技師が、生体試料からの核酸の抽出およびシークエンシングという試料収集および／またはウェットラボ処置の場所から離れた環境において実施することができる。

前記操作は、コンピュータへのインストールに適応したソフトウェアによって使用者に提供され、クラウドに保存することができる。

必要な、または所望される操作を実施した後、技師または使用者にはレポートまたはスコアが提供され、前記レポートまたはスコアは分析した特性に関する情報を提供する。好ましくは、レポートは分析した患者または試料ＩＤに関連するリンクを含む。前記レポートまたはスコアは、試料中における異数性またはＬＯＨの有無、微少欠失の有無および試料が妊娠した雌から得られるときは胎児画分決定に関する情報を提供することができ、前記情報は前述の方法によって計算されたパラメータに基づいて得られる。レポートは同様に、異数性の性質（検出されるならば、例えば、大きな、または小さな染色体異常）および／または分析した試料の質に関する情報を提供することができる。

当業者には、前述の情報は１レポート中において技師に提示され得ることを理解されたい。

好ましくは、前述の操作は、様々なコンピュータ実施操作によって試料の分子分析を可能にするデジタルプラットフォームの一部である。

Claims

妊娠した雌から得られた生体試料中における胎児の染色体異数性および／またはヘテロ接合性の欠如（ＬＯＨ）の有無を決定するための方法であって、
− 母体および胎児の核酸の両方を含む生体試料のターゲットキャプチャー超並列シークエンシングの指標となる配列情報を得るステップと、
− 前記ターゲットキャプチャー超並列シークエンシングから得られたオフターゲットリードの量を決定するステップと、
− 前記異数性またはＬＯＨの有無を決定するための情報を前記オフターゲットリードカウント情報から得るステップと
を含む方法。
妊娠した雌の生体試料中における胎児異数性および／またはヘテロ接合性の欠如（ＬＯＨ）の有無を決定するための方法であって、前記試料が母体および胎児の両方のセルフリーＤＮＡを含み、前記方法が、
ａ）前記生体試料から母体および胎児のＤＮＡを得るステップ、
ｂ）前記ＤＮＡと、１つまたは複数の標識されたＲＮＡプローブまたはＤＮＡプローブとを接触させるステップと、それによって前記プローブの前記母体または胎児のＤＮＡへのハイブリダイゼーションを可能にし、
ｃ）前記ハイブリダイズしたＤＮＡ：プローブを捕捉するステップと、
ｄ）捕捉された前記ＤＮＡのシークエンシングを実施するステップと、それによってリードが得られ、
ｅ）前記リードを参照ゲノムにマッピングするステップと、
ｆ）オンターゲットリードとオフターゲットリードとを分離するステップと、
ｇ）オフターゲットリードカウントを得るステップと、
前記オフターゲットリードカウントを胎児異数性またはＬＯＨの有無の決定のために使用するステップと
を含む方法。
ディープシークエンシングを実施する、請求項１または２に記載の方法。
オフターゲットリードカウントの最少量がｌ×１０^６である、請求項１〜３のいずれか１項に記載の方法。
前記プローブが予め規定された標的を対象とすることを特徴とする、請求項１〜４のいずれか１項に記載の方法。
前記プローブが前記ＤＮＡまたは領域の繰り返し領域を対象とすることを特徴とする、請求項５に記載の方法。
前記プローブが、反復性ＣＮＶまたは前記反復性ＣＮＶに隣接する領域を含有することが知られている１つまたは複数の領域を対象とすることを特徴とする、請求項５に記載の方法。
前記プローブが１×１０^３〜１０×１０^６塩基対の間の配列長を有するＣＮＶ標的を対象とすることを特徴とする、請求項５に記載の方法。
前記プローブが無作為標的を対象とすることを特徴とする、前記請求項１〜４のいずれか１項に記載の方法。
前記オンターゲットリードがさらなる分析のために排除されることを特徴とする、請求項１〜９のいずれか１項に記載の方法。
前記得られたオフターゲットが参照セットに基づいて正規化されることを特徴とする、請求項１〜１０のいずれか１項に記載の方法。
１つまたは複数のパラメータが前記オンターゲットリードから得られ、それによって胎児画分の決定および／または微少欠失の有無の検出が可能になる、請求項１または２に記載の方法。
対象から得られた生体試料中におけるヘテロ接合性の欠如事象の存在を検出するための方法であって、前記試料が核酸を含み、前記方法が、
− 前記試料から得られたＤＮＡのターゲットキャプチャー超並列シークエンシングから配列情報を得るステップと、
− 前記ターゲットキャプチャー超並列シークエンシングから得られたオフターゲットリードの量を決定するステップと、
− 前記ＬＯＨの有無を決定するための情報を前記オフターゲットリードカウントから得るステップと
を含む方法。