JP2023547610A - 同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム - Google Patents

同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム Download PDF

Info

Publication number
JP2023547610A
JP2023547610A JP2023523627A JP2023523627A JP2023547610A JP 2023547610 A JP2023547610 A JP 2023547610A JP 2023523627 A JP2023523627 A JP 2023523627A JP 2023523627 A JP2023523627 A JP 2023523627A JP 2023547610 A JP2023547610 A JP 2023547610A
Authority
JP
Japan
Prior art keywords
sample
snp
allele
snps
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023523627A
Other languages
English (en)
Inventor
デゼリル、ジェニファー
キャンベル、マシュー
ラウンスレイ、スティーブ
リネル、パトリス
Original Assignee
エイビーエス グローバル、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エイビーエス グローバル、インコーポレイテッド filed Critical エイビーエス グローバル、インコーポレイテッド
Publication of JP2023547610A publication Critical patent/JP2023547610A/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes

Abstract

遺伝的同一性を決定し、サンプルの純度を試験し、エラー又は汚染を検出し、汚染の量を計算し、汚染物質の同一性を決定するために、ストローからの精液サンプルを処理するための方法及びシステム。本発明の方法は、約1%、2%の汚染など、低レベルの汚染を検出することができる。

Description

関連出願との相互参照
本出願は、2020年10月21日に出願された米国仮出願第63/094,750号の利益を主張し、その明細書は、参照によりその全体が本明細書に組み込まれる。
発明の背景
本発明は、遺伝子サンプルを増幅、シーケンシング及び分析するための方法に関し、より詳細には、サンプルの同一性を検証又は判定するため、その中の遺伝子汚染を検出するため、及び/又はサンプルの誤標識を検出するために、遺伝子サンプル、例えば精子サンプルを処理するための方法及びシステムに関する。
動物の精液ストロー(semen straw)を調製するとき、ストローを誤って標識する、又は望ましくない遺伝物質を誤って導入する可能性がある。例えば、サンプルは、最初に複数のアリコートに分割され、性別選択のための機械に通され、その後に再結合され得る。再結合工程又は他の工程の間に、汚染物質を導入する、又は異なる雄ウシからのサンプルを混合する可能性があり、その結果、誤った雄ウシで子ウシが生まれてしまう。
トウモロコシ、大豆、又は他のそのようなサンプルの遺伝子純度を評価するための既存の方法(例えば、現在のマイクロアレイ又はチップアッセイ)は、主に、評価されるサンプルが追加の下流分析に使用可能な十分な純度又は十分に低い汚染レベルであるかどうかを判定することに焦点を合わせている。既存の方法はまた、1系統あたり1つの対立遺伝子を機能的に測定し、サンプル中の所与の系統の存在を識別することしかできない場合がある。本発明を何らかの理論又は機構に限定することを望むものではないが、これらの方法は、サンプルが所望の遺伝物質のセットのみを含むかどうかを決定するには一般に不十分であると考えられる。
しかし、驚くべきことに、マルチプレックスシーケンシング法を使用して、1%(又は1%未満)、2%、3%、4%、5%などの低いレベルの汚染など、ストローサンプル中の低レベルの汚染を検出できることが発見された。マルチプレックスシーケンシング法は一般にサンプルが均一であることを要するのに対し、ストローサンプルは死んだ精子、UV照射精子などを含むため不均一であることを考慮すると、これは驚くべきことであった。
本発明は、遺伝子サンプル、例えば精子サンプル(例えば、精液ストローからのサンプル)を処理するための方法及びシステムを特徴とする。本発明の方法及びシステムは、サンプルの同一性の検証又は判定を可能にする。例えば、本発明の方法及びシステムは、サンプル中の遺伝的内容物が参照動物と一致することを決定/確認することを可能にする(例えば、100%の遺伝的一致(genetic match)があるか否かを確認又は判定する)。本発明の方法及びシステムはまた、可能性のある混合物又は汚染を検出するためにサンプルの純度を試験する。特定の実施形態では、本発明の方法及びシステムはまた、(例えば、誤って標識されたサンプルの場合において)汚染物質の同一性又は遺伝物質の起源を決定するための工程を特徴とする。
本発明を任意の理論又は機構に限定することを望むものではないが、本発明の方法及びシステムは、容易で迅速で高感度の同一性確認及び/又は汚染の検出を可能にするため有利であると考えられる。多重化は、コストを削減し、均一性を高めるのに役立つ。
本発明の方法及びシステムは、試験されたサンプルが遺伝物質の所望のセットのみを含むことを(ある程度まで)決定するのに役立つ。精液ストローの遺伝的純度をそのような程度まで決定することにより、より大きな程度まで、ストローがそれらが主張する精子を含有することを確実にすることが可能であり、したがって高価なエラーを回避する。また、特定の管轄区域は高純度の基準を必要とし、本発明の方法は、特定の精子ストローを確実に販売できるようにするのに役立つことができる。
前述のように、遺伝物質のサンプルを調製するとき、サンプルが誤って標識される可能性があり、又は標識が誤って読み取られる可能性がある。さらに、サンプルを分割又は分離し、後でサンプルを再結合するときに混合又は汚染が発生する可能性があり、又は遺伝子型分類のために遺伝子サンプルを処理するときに汚染が発生する可能性がある。本発明の方法及びシステムは、遺伝物質の処理、取り扱い、及び品質管理に関して生じ得る上述の問題に対処するのを助けるために使用することができる。
本発明を任意の理論又は機構に限定することを望むものではないが、本発明の方法及びシステムは、シーケンシングデータセットの品質管理を対象とした既存の方法を改善するため有利であり、本発明の方法及びシステムは精液処理の分野において有利であると考えられる。既存の方法は、一般に、シーケンシングデータが適切であるか否かを決定するために、シーケンシングデータにおける汚染又はサンプルの入れ替えをチェックした。本発明は、試験されているサンプルの同一性を確認する(例えば、サンプル中の予想される個体とサンプル中で同定された実際の個体との間に一致があるか否かを判定する)ため、及び遺伝子サンプル(例えば、精液ストロー)内の汚染を識別するための両方のためにシーケンシングランで汚染を識別することができるアプローチを提供し、両方とも既存の方法によって提供されない。
簡潔には、試験サンプル、例えば遺伝子サンプル(例えば、試験サンプルから単離又は抽出されたDNA)は、SNPプライマー対のプールを使用して増幅(例えば、PCR増幅)に供され、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のSNPを含む固有の遺伝子座に隣接する。増幅(例えば、PCR増幅)は、各SNP対立遺伝子のアンプリコンを生成し、したがってSNPアンプリコンのプールを生成する。方法は、SNPアンプリコンのプールをシーケンシング(例えば、次世代シーケンシング(NGS))に供することをさらに含み、シーケンシングは、SNPアンプリコンのプール中の各アンプリコンについてヌクレオチド配列を提供する。
シーケンシングからの結果は、分析システム、例えば、シーケンシングから得られた情報に対して数学的又は統計的演算をコンパイル及び/又は編成及び/又は実行するためのコンピュータベースのシステムに提供される。例えば、分析システムは、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算してもよい。特定の実施形態において、本システムは、各SNPの配列及び/又は対立遺伝子頻度を、少なくとも1つの参照配列(例えば、ライブラリー配列、既知の個体、例えば既知の雄牛からの配列など)の対応するSNPと比較する。参照配列(例えば、ライブラリー配列、参照個体からの配列、例えば既知の雄牛など)の対応するSNPのサブセットは、予想される=ホモ接合SNPである。特定の実施形態において、上記方法は、参照配列におけるそれぞれの予想されるホモ接合性SNPに対応する試験サンプルにおけるそれぞれのSNPについて、一致しない対立遺伝子の頻度を計算する工程を含む。いくつかの実施形態において、特定の計算は、それぞれの予想されるホモ接合性SNPの一致しない対立遺伝子の頻度、及び特定の頻度で一致しない対立遺伝子を有するSNPの数に基づき、1つ又は2つ以上の遺伝的に異なる個体による汚染率の決定を可能にする。分析は、遺伝的一致(genetic match)の検出(例えば、同一性を確認する)、混合物の検出、遺伝子サンプルの同一性の判定、及び/又は汚染物質の起源の決定などに役立つ。
本発明の方法及びシステムで言及される遺伝子サンプルは、精子サンプル、例えば雄牛から得られた精子サンプルを含む。しかしながら、本発明は精子サンプルに限定されず、本発明は雄牛から得られたサンプルに限定されない。前述のように、精子サンプルはストローに保存され得る。特定の実施形態では、精子サンプルは、生きた精子及びUV照射に供された精子を含み得る。いくつかの実施形態において、精子サンプルは、生きた精子及び死んだ精子を含む。いくつかの実施形態において、精子サンプルは、動物の性別を判定するための機械に供されている。
本発明の方法は、自動化された多重化方法として説明される。しかしながら、本発明は、自動化されたマルチサンプル用途に限定されない。多重検定は当業者に周知であり、少なくとも2つのサンプルが同時に方法に供され、例えば、少なくとも2、少なくとも6、少なくとも12、少なくとも24、少なくとも48、少なくとも96などのサンプルが同時に方法に供される。
本明細書に記載の方法は、サンプルを再試験して結果を確認する追加の工程、例えば、非100%一致サンプル又は潜在的な混合物として標識されたものを再試験して、自動的に廃棄される代わりに汚染されていること(又はスワップ)を確認することができる工程を特徴とし得る。特定の実施形態では、サンプルは、少なくとも2回試験された後に廃棄され、2回以上が非100%一致であることが示されている。
本発明の方法はまた、量についてサンプルを分析するための工程を特徴とし得る。特定の実施形態では、サンプルが不十分な量を有すると判定された場合、別のサンプルを供給源(例えば、精子ストロー)から得ることができる。
本発明はまた、増幅及びシーケンシングからの結果を、ユーザインターフェースを有する統合分析システム(例えば、アプリケーション)に提供することを含む。
分析システム(例えば、アプリケーション)は、ユーザインターフェースを介して結果を表示することができる。結果の例には、限定するものではないが、シーケンシングからのSNP読み取り結果、シーケンシング結果の要約、エラー又は警告などが含まれ得る。例えば、分析システムは、特定の状況で、例えば、分析に不十分な遺伝物質がある場合、汚染の疑いがある場合、遺伝的一致(genetic match)がない場合などに(例えば、ユーザインターフェースを介して)警告を示すようにプログラムされてもよい。ユーザ(例えば、技術者)は、結果を検討し、ユーザインターフェース(例えば、シーケンシングからのSNP読み取り結果を示す視覚データ)に示される視覚データに基づいて、データの手動の検討及び/又はサンプルの再実行が必要か否かを決定してもよい。
本発明は、試験サンプルから抽出されたDNAを処理する方法を提供する。特定の実施形態において、本方法は、試験サンプルから抽出されたDNAをSNPプライマー対のプールを使用してヌクレオチド増幅に供することであって、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成するためにSNPアンプリコンのプールをシーケンシングに供することと、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算することとを含む。各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を比較してもよい。例えば、特定の実施形態では、参照配列に対するターゲットSNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度であって、ターゲットSNPのサブセットは、ホモ接合性であると予想されるSNPの群である。ターゲットSNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が参照配列中の対応するSNPと完全に一致する場合、試験サンプルは参照配列のものと同じであり、例えば、遺伝的一致(genetic match)がある。SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が参照配列中の対応するSNPと正確に一致しない場合、SNPのサブセット中のSNP(例えば、正確に一致しないサブセットのSNP)について、一致しない対立遺伝子の頻度が計算される。特定のSNPにおける一致しない対立遺伝子の頻度が所定の閾値(例えば、「不一致閾値」)を上回る場合、その特定のSNPは、汚染SNPであると考えられる(例えば、混合又はエラーの潜在的な表示)。汚染SNPの数が所定の閾値(例えば、「汚染SNP閾値」)を上回る場合、サンプルは汚染されていると識別される(例えば、サンプルは、潜在的な混合物であるか、又は誤差を含むと考えられる)。いくつかの実施形態において、サンプルは、誤って標識されたサンプル又はスワップであると判定される。
本発明の方法及びシステムは、サンプルの同一性を確認すること、サンプルの純度を決定すること、サンプル中の汚染を検出すること、サンプル中の汚染の起源を決定すること、及び/又はサンプルが分析に十分な遺伝物質を有するか否かを決定することを可能にする。
いくつかの実施形態において、ヌクレオチド増幅方法はPCR増幅である。いくつかの実施形態において、シーケンシング方法は次世代シーケンシング(NGS)である。特定の実施形態において、ヌクレオチド増幅工程は、次世代シーケンシングのためのアダプター配列及びバーコードを付加する工程を含む。
特定の実施形態において、本方法は、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算し、各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度を、配列ライブラリーにおける参照配列又は参照配列の群の頻度と比較するための分析システムを使用することをさらに含む。
特定の実施形態では、試験サンプルは精子サンプルである。精子サンプルは、動物の性別を決定するための機械に供されていてもよく、生きた精子及び死んだ精子を含む。精子サンプルはUV照射に供されていてもよい。
いくつかの実施形態では、SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が、参照配列中のそれらの同じSNPと完全に一致する場合、試験サンプルは少なくとも98%純粋である。いくつかの実施形態では、SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が、参照配列中のそれらの同じSNPと完全に一致する場合、試験サンプルは少なくとも99%純粋である。いくつかの実施形態では、SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が、参照配列中のそれらの同じSNPと完全に一致する場合、試験サンプルは少なくとも99.5%純粋である。
いくつかの実施形態では、試験サンプルが1つ以上の汚染SNPを有する場合、試験サンプルは汚染されていると識別される。いくつかの実施形態では、試験サンプルが2つ以上の汚染SNPを有する場合、試験サンプルは汚染されていると識別される。いくつかの実施形態では、試験サンプルが3つ以上の汚染SNPを有する場合、試験サンプルは汚染されていると識別される。
この方法は、例えば、少なくとも2つのサンプルが同時にこの方法に供され、少なくとも48個のサンプルが同時にこの方法に供され、少なくとも96個のサンプルが同時にこの方法に供されるなど、多重検定として実施され得る。
特定の実施形態において、プライマープールは、少なくとも48個のプライマーセット(例えば、48個のプライマーセット、49個のプライマーセット、50個以上のプライマーセットなど)を含む。特定の実施形態において、プライマープールは、24個以上のプライマーセット、30個以上、36個以上、40個以上、42個以上、45個以上などを含む。
本方法は、サンプルが十分な量を有することを確実にするためにサンプルを分析することをさらに含み得る。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて40個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて35個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて30個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて25個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて20個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて45個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。特定の実施形態において、サンプルが、プライマープール(又はSNPの特定のサブセット)における各SNPについて50個未満の読み取りを有する場合、そのサンプルは、分析のための遺伝物質が不十分である。サンプルが分析に十分なDNAを有していない場合、別のDNAサンプルを得て再試験することができる。
特定の実施形態において、SNPのサブセットにおけるSNPの一致しない対立遺伝子の頻度は、0~1の数として計算される。
特定の実施形態では、所定の不一致閾値は0.5%である。特定の実施形態では、所定の不一致閾値は1%である。特定の実施形態では、所定の不一致閾値は2%である。特定の実施形態では、所定の不一致閾値は5%である。特定の実施形態では、所定の不一致閾値は0.5%,1%,2%,又は5%である。
特定の実施形態では、サンプルが、SNPのサブセット内に汚染SNPである少なくとも5つのSNPを有する場合、サンプルは汚染サンプルと見なされる。特定の実施形態では、SNPのサブセット中のSNPの少なくとも5%が汚染SNPである場合、サンプルは汚染サンプルと見なされる。特定の実施形態では、SNPのサブセット中のSNPの少なくとも10%が汚染SNPである場合、サンプルは汚染サンプルと見なされる。特定の実施形態では、SNPのサブセット中のSNPの少なくとも15%が汚染SNPである場合、サンプルは汚染サンプルと見なされる。
本方法は、試験サンプル中の汚染の起源を決定する工程をさらに含み得る。試験サンプル中の汚染の起源を決定することは、試験サンプルを1つ又は2つ以上の代替参照配列と比較することを含み得、汚染は1つ又は2つ以上の代替参照配列まで追跡され得る。特定の実施形態において、代替参照配列は、配列ライブラリー、公開データベース及び/又は産業データベースからのものである。
特定の実施形態において、各SNPにおける対立遺伝子頻度は、各対立遺伝子を含む読み取りの数を0~.5のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用される。遺伝子型は0、1、2のスケールで呼ばれ、0は参照配列に従ってホモ接合性であり、2はホモ接合性であるが参照配列とは反対であり、1はヘテロ接合性である。対立遺伝子頻度が0.2以上である場合、遺伝子型は1又はヘテロ接合性であり、対立遺伝子頻度が<.2であり、対立遺伝子が参照配列と同じである場合、遺伝子型は0又はホモ接合性であり、又は参照配列と反対である場合、遺伝子型は2である。
本発明はまた、試験サンプルから抽出されたDNAを処理する方法を提供する。特定の実施形態では、本方法は、試験サンプルから抽出されたDNAを、SNPプライマー対のプールを使用してPCR増幅に供することであって、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のSNPを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成させるためにSNPアンプリコンのプールを次世代シーケンシング(NGS)に供することであって、各アンプリコンはSNPの第1の対立遺伝子又は第2の対立遺伝子のいずれかであることと、各SNPについて第1の対立遺伝子及び前記第2の対立遺伝子の対立遺伝子頻度を計算することと、SNPのサブセット中の各SNPの第1の対立遺伝子及び第2の対立遺伝子の対立遺伝子頻度を、参照配列中のそれらの同じSNPと比較することであって、SNPのサブセットはホモ接合性であると予想されるSNPの群であることとを含む。特定の実施形態において、各SNPの対立遺伝子頻度は、各対立遺伝子を含む読み取りの数を0~.5のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用される。遺伝子型は0、1、2のスケールで呼ばれ、0は参照配列に従ってホモ接合性であり、2はホモ接合性であるが参照配列とは反対であり、1はヘテロ接合性である。対立遺伝子頻度が0.2以上である場合、遺伝子型は1又はヘテロ接合性であり、対立遺伝子頻度が<.2であり、対立遺伝子が参照配列と同じである場合、遺伝子型は0又はホモ接合性であり、又は参照配列と反対である場合、遺伝子型は2である。特定の実施形態では、SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が参照配列中のそれらの同じSNPと完全に一致する場合、試験サンプルは参照配列のものと同じであり、サンプルは少なくとも95%純粋である。特定の実施形態では、SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が正確に一致しない場合、一致しない対立遺伝子の頻度が計算され、一致しない対立遺伝子の頻度が所定の不一致閾値を上回る場合、SNPは汚染SNPであり、方法は、試験サンプル中の汚染SNPの数を計算することをさらに含み、汚染SNPの数が所定の汚染SNP閾値を上回る場合、サンプルは汚染を有すると識別される。
前述のように、本発明の方法及びシステムは、サンプルの同一性を確認すること、サンプルの純度を決定すること、サンプル中の汚染を検出すること、サンプル中の汚染の起源を決定すること、及び/又はサンプルが分析に十分な遺伝物質を有するか否かを決定することを可能にする。したがって、本発明は、サンプルの同一性を確認する方法、サンプルの純度を決定する方法、サンプルの汚染を検出する方法、サンプル中の汚染の起源を判定する方法、及びサンプルが分析に十分な遺伝物質を有するか否かを決定する方法を提供する。これらの方法は、サンプルを処理する方法、例えば、試験サンプルから抽出されたDNAをSNPプライマー対のプールを使用してヌクレオチド増幅に供すること(各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成する)、プール中の各アンプリコンについてヌクレオチド配列を生成するためにSNPアンプリコンのプールをシーケンシングに供すること、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算することなどに上述の工程を組み込む。
一例として、本発明は、試験サンプルから抽出されたDNAにおける遺伝的一致(genetic match)を検出するために処理する方法を提供する。特定の実施形態において、本方法は、試験サンプルから抽出されたDNAをSNPプライマー対のプールを使用してヌクレオチド増幅に供することであって、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成するためにSNPアンプリコンのプールをシーケンシングに供することと、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算することとを含む。各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を比較してもよい。例えば、特定の実施形態では、参照配列に対するターゲットSNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度であって、ターゲットSNPのサブセットは、ホモ接合性であると予想されるSNPの群である。ターゲットSNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が参照配列中の対応するSNPと完全に一致する場合、試験サンプルは参照配列のものと同じであり、例えば、遺伝的一致(genetic match)がある。
別の例として、本発明は、試験サンプルから抽出されたDNAを汚染の可能性を検出するために処理する方法を提供する。特定の実施形態において、本方法は、試験サンプルから抽出されたDNAをSNPプライマー対のプールを使用してヌクレオチド増幅に供することであって、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成することと、プール中の各アンプリコンのヌクレオチド配列を生成するためにSNPアンプリコンのプールをシーケンシングに供することと、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算することとを含む。各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を比較してもよい。例えば、特定の実施形態では、参照配列に対するターゲットSNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度であって、ターゲットSNPのサブセットは、ホモ接合性であると予想されるSNPの群である。SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が参照配列中の対応するSNPと正確に一致しない場合、SNPのサブセット中のSNP(例えば、正確に一致しないサブセットのSNP)について、一致しない対立遺伝子の頻度が計算される。特定のSNPにおける一致しない対立遺伝子の頻度が所定の閾値(例えば、「不一致閾値」)を上回る場合、その特定のSNPは汚染SNPであると見なされ(例えば、混合又はエラーの潜在的な表示)、汚染SNPの数が所定の閾値(例えば、「汚染SNP閾値」)を上回る場合、サンプルは潜在的な汚染を有すると識別される(例えば、サンプルは、潜在的な混合物であるか、又はエラーを含むと考えられる)。
本発明はまた、本明細書に開示される方法を実行するためのシステム、例えば、コンピュータ実装システム、分析システムを提供する。例えば、システムは、本明細書に開示される方法の1つ又は2つ以上の工程の数学的及び/又は統計的及び/又は分析的演算を実行するためのプロセッサ(例えば、マイクロプロセッサ)を特徴とし得る。プロセッサ(例えば、マイクロプロセッサ)は、システムの1つ又は2つ以上の他の構成要素、例えば、シーケンシングシステム、ユーザインターフェースなどに動作可能に接続することができる。
本発明の方法は、コンピュータ実装方法であってもよい。
本明細書に開示される方法に関して、方法は、試験サンプルが由来するサンプル、例えば試験サンプルが由来する精液ストローの販売及び/又は使用に関連する追加の工程をさらに含み得る。特定の実施形態では、方法は、遺伝的一致(genetic match)があるサンプルを「承認する」又は「合格にする」こと、例えばサンプルが使用及び/又は販売され得ることを示すために何らかの方法でサンプルを標識することをさらに含む。特定の実施形態では、方法は、販売及び/又は使用のために承認された(合格した)サンプルを提供することをさらに含む。特定の実施形態では、方法は、サンプルが汚染されている可能性があると考えられる場合、サンプルを再試験することをさらに含む。特定の実施形態では、本方法は、例えば、サンプルが使用及び/又は販売されない可能性があることを示すために何らかの方法でサンプルを標識するなど、汚染物質又はエラーがあるサンプルを「不合格にする」ことをさらに含む。特定の実施形態では、方法は、サンプルが汚染されていると判定された場合、試験サンプルが由来するサンプルを破壊することをさらに含む。
本明細書に記載の任意の特徴又は特徴の組合せは、任意のそのような組合せに含まれる特徴が、文脈、本明細書、及び当業者の知識から明らかになるように、相互に矛盾しない限り、本発明の範囲内に含まれる。本発明のさらなる利点及び態様は、以下の詳細な説明及び特許請求の範囲において明らかである。
本発明の特徴及び利点は、添付の図面に関連して提示される以下の詳細な説明の考察から明らかになるであろう。
一連の意図的な混合物からの結果を示す図である。
ホモ接合性であると予想される一塩基多型(SNP)の第2の対立遺伝子の頻度を示す図である。
第2の雄牛からの特定の汚染画分を有する様々なサンプルについて、バックグラウンドノイズと比較した混合の証拠を示す図である。
汚染雄牛を含む実サンプルにおいてホモ接合性であると予想される特定のSNPの第2の対立遺伝子頻度の一例を示す図である。SNPには3つのカテゴリーがあり、「0」は第2の対立遺伝子の0コピーを表し、濃い灰色のボックス(番号37、30、34、及び35)は、第2の対立遺伝子の2つのコピーを表し、残りの番号が付けられたボックス(番号17、17、13、19、20、19、及び14)は、第2の対立遺伝子の1つのコピーを表す。これは、汚染雄牛を識別するための指紋として機能する。例えば、雄牛29HO17718は、その特定の遺伝子型を有する群における唯一の雄牛である。
本発明の方法に関連するワークフローの概略図である。本発明は、図3Aのワークフローに限定されない。非100%一致サンプルは、破壊される前に再試験を受ける可能性があることに留意されたい。
本発明の方法に関連するワークフローの概略図である。本発明は、図3Bのワークフローに限定されない。
本発明の方法に関連するワークフローの概略図であり、シーケンシングデータは、ユーザインターフェースを有する分析システムに統合又は動作可能に接続されたデータベースに記憶される。ユーザインターフェースは、サンプルの検討及び品質管理を可能にする。
仮想ストローサンプル群の出力データの非限定的な例を示す図である。
本発明は、遺伝子サンプルを処理し、サンプル(例えば、精液ストロー)の純度を試験するため、例えば、混合又は汚染の疑いを検出するため、サンプルの誤標識(例えば、サンプルスワップ)を検出するため、サンプルの同一性を確認するため、サンプルの同一性(起源)を決定するため、存在する場合には汚染の同一性(起源)を決定するため、などの方法及びシステムを特徴とする。
本発明の遺伝子サンプルを処理する方法は、試験サンプル(例えば精子サンプル、例えば精液ストロー由来の精子サンプル)から抽出されたDNAの特定の領域を増幅し、アンプリコンをシーケンシングし、アンプリコンを分析することを特徴とする。
サンプルは、抽出されたDNAとしてユーザに提供され得る。あるいは、当業者は、生サンプルの場合、DNA抽出の追加の工程がさらなる処理の前に行われ得ることを理解している。
アンプリコンの増幅及びシーケンシング
本発明の方法及びシステムを参照すると、遺伝子サンプル(例えば、抽出されたDNA)は増幅(例えば、PCR増幅)に供され、増幅工程から特定のSNPのアンプリコンが生成される。DNA増幅の方法は、当業者に周知である。例えば、増幅はPCR増幅を指し得るが、これに限定されない。各SNPプライマー対が固有の遺伝子座(ターゲットSNP)に隣接し、したがって第1の対立遺伝子及び第2の対立遺伝子を定義する、SNPプライマー対のセットは、増幅中にプライマーとして使用される。
特定の実施形態において、プライマープールは、(24個のターゲットSNPを増幅するための)少なくとも24個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、(36個のターゲットSNPを増幅するための)少なくとも36個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、(40個のターゲットSNPを増幅するための)少なくとも40個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、(48個のターゲットSNPを増幅するための)少なくとも48個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、48個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、49個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、50個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、24個~48個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、40個~50個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、48個~49個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、50個~60個のプライマーセットを含む。いくつかの実施形態において、プライマープールは、50を超えるプライマーセットを含む。
特定の実施形態では、ターゲットSNPの少なくとも10個がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも15個がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも20個がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも25個がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも30個がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも35個がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも10%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも20%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも25%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも30%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも40%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも50%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも60%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも70%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPの少なくとも75%がホモ接合性であると予想される。特定の実施形態では、ターゲットSNPのすべてがホモ接合性であると予想される。
本発明の方法で使用されるプライマー対の例を以下の表1(表1-1、1-2、1-3及び1-4)に記載する。本明細書に開示されるプライマーは単なる例として提供され、本発明は本明細書に開示されるプライマー又はSNPに限定されないことを理解されたい。本発明の開示に基づいて、当業者は、他のSNPを選択し、選択したSNPのためのプライマーを設計することができるであろう。同様に、本発明は、雄牛における精子サンプルの試験に限定されない。本発明の方法及びシステムは、他のサンプルタイプ及び他の種(例えば、他の哺乳動物)に適用され得る。



プライマー対は、特定のSNPの増幅を可能にし、SNPの少なくとも1つのサブセットは、試験サンプルの同一性及び純度を決定するのに役立ち得る。
増幅工程から得られたSNPアンプリコンのプールをさらにシーケンシングする。次世代シーケンシング(NGS)などであるがこれらに限定されないシーケンシング方法は、当業者に周知である。本方法におけるさらなる工程は、NGSのためのアダプター配列の付着を含み得る。
分析
シーケンシングからの結果は、分析システム、例えばアプリケーション、例えば、シーケンシングから得られた情報に対して数学的又は統計的演算をコンパイル及び/又は編成及び/又は実行するためのコンピュータベースのシステムに提供される。例えば、分析システムは、各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算してもよい。本明細書に記載されるように、分析システムは、各SNPの配列及び/又は対立遺伝子頻度を、少なくとも1つの参照配列(例えば、ライブラリー配列、既知の個体、例えば既知の雄牛からの配列など)の対応するSNPと比較する。参照配列(例えば、ライブラリー配列、参照個体からの配列、例えば既知の雄牛など)の対応するSNPのサブセットは、ホモ接合SNPである。特定の実施形態において、上記方法は、参照配列におけるそれぞれの予想されるホモ接合性SNPに対応する試験サンプルにおけるそれぞれのSNPについて、一致しない対立遺伝子の頻度を計算する工程を含む。いくつかの実施形態において、特定の計算は、それぞれの予想されるホモ接合性SNPの一致しない対立遺伝子の頻度、及び特定の頻度で一致しない対立遺伝子を有するSNPの数に基づき、1つ又は2つ以上の遺伝的に異なる個体による汚染率の決定を可能にする。分析は、遺伝的一致(genetic match)の検出(例えば、同一性を確認する)、遺伝子サンプルの同一性の判定、潜在的な混合物の検出、及び/又は汚染物質の起源の決定などに役立つ。
いくつかの実施形態では、方法及びシステムは、サンプル中のDNAの量をチェックして、適切に分析されるように増幅及びシーケンシングされる十分な遺伝物質があるか否かを判定する工程を特徴とする。適切な分析に十分なDNAがない場合、システムはエラーシグナル、例えば「LOW」シグナルを生成し得る。特定の実施形態では、DNA抽出が繰り返される。
サンプルの量に関して、分析システムは、すべてのターゲットSNP又はSNPの特定のサブセット(例えば、ホモ接合性であると予想されるSNPのサブセットなど)の頻度を計算することができる。方法及びシステムは、SNPの所定のサブセット内の各SNP(又はシステムが量分析にすべてを使用する場合はすべてのターゲットSNP)に対して特定の数の読み取りを必要とし得る。例えば、特定の実施形態では、本方法及びシステムは、各SNP(又はSNPのサブセット)の少なくとも40個の読み取りを必要とする。特定の実施形態では、各SNP(又はSNPのサブセット)の少なくとも35個の読み取りを必要とする。特定の実施形態では、各SNP(又はSNPのサブセット)の少なくとも30個の読み取りを必要とする。特定の実施形態では、各SNP(又はSNPのサブセット)の少なくとも25個の読み取りを必要とする。特定の実施形態では、各SNP(又はSNPのサブセット)の少なくとも20個の読み取りを必要とする。特定の実施形態では、各SNP(又はSNPのサブセット)の少なくとも45個の読み取りを必要とする。特定の実施形態では、各SNP(又はSNPのサブセット)の少なくとも50個の読み取りを必要とする。本発明は、前述のSNP要件に限定されない。
特定の実施形態では、量分析に使用されるSNPのサブセットは、5個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、10個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、15個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、20個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、25個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、30個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、35個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、40個以上のSNPを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、標的SNPのすべてを含む。特定の実施形態では、量分析に使用されるSNPのサブセットは、ホモ接合であると予想されるSNPのすべてである。
定義された基準(例えば、配列ライブラリー、参照配列など)に対するSNPの全体的な組成及びそれらの比は、適用可能であれば、同一性についての試験及び1つ又は2つ以上の遺伝的に異なる個体による汚染の程度の推定を可能にする。
分析システムは、各SNP(又はホモ接合性であると予想されるSNPのサブセットなどのSNPの少なくとも1つのサブセット)について対立遺伝子の頻度を計算するように構成される。例えば、分析システムは、ホモ接合性であると予想されるターゲットSNPにおける第2の対立遺伝子(一致しない対立遺伝子)の頻度を計算するように構成される。本発明の方法の純度分析部分は、参照遺伝子型に依存し、予想される遺伝子型においてホモ接合性であるべきSNPに焦点を当てている。SNPがホモ接合性であるべき場合、サンプル中のそのSNPにおける他方の対立遺伝子(第2の対立遺伝子、一致しない対立遺伝子)の検出は予想外であろう(又は少なくとも大量の他の対立遺伝子の検出は予想外である、というのも、あるレベルのノイズがシーケンシングでは典型的であるからである)。したがって、他方の対立遺伝子の頻度は、特定の所定の閾値(例えば、以下に記載されるような、非一致対立遺伝子頻度閾値)未満でなければならない。
対立遺伝子頻度は、0~1などの数字としてパーセンテージとして表され得る。例えば、特定の予想されるホモ接合性SNPについて第2の対立遺伝子が検出されない場合、対立遺伝子頻度は0として表され得る。第2の対立遺伝子の検出は、0~1、例えば0.03、0.05、0.1、0.18、0.3などのスケールを使用する場合、0より大きい(1までの)対立遺伝子頻度をもたらし得る。
前述のように、分析システムは、第2の対立遺伝子(又は一致しない対立遺伝子)頻度閾値を使用することができ、所定の閾値及び/又はそれを超える一致しない対立遺伝子の頻度の検出は、SNPが「汚染」SNPであることを示す。特定の実施形態において、0より大きい一致しない対立遺伝子の頻度は、汚染SNPを示す。換言すれば、いくつかの実施形態において、非一致対立遺伝子頻度閾値は、0より大きい任意のものであり得る。特定の実施形態において、非一致対立遺伝子頻度閾値(例えば、SNPが汚染SNPであることを示す第2の対立遺伝子の頻度)は、0.005、又は0.5%である。特定の実施形態において、非一致対立遺伝子頻度閾値(例えば、SNPが汚染SNPであることを示す第2の対立遺伝子の頻度)は、0.01、又は1%である。特定の実施形態において、非一致対立遺伝子頻度閾値(例えば、SNPが汚染SNPであることを示す第2の対立遺伝子の頻度)は、0.02、又は2%である。特定の実施形態において、非一致対立遺伝子頻度閾値(例えば、SNPが汚染SNPであることを示す第2の対立遺伝子の頻度)は、0.03、又は3%である。特定の実施形態において、非一致対立遺伝子頻度閾値(例えば、SNPが汚染SNPであることを示す第2の対立遺伝子の頻度)は、0.04、又は4%である。特定の実施形態において、非一致対立遺伝子頻度閾値(例えば、SNPが汚染SNPであることを示す第2の対立遺伝子の頻度)は、0.05、又は5%である。
純度チェックは、一般に、サンプルからのホモ接合体のコールされた(called)遺伝子型を使用して、サンプルを混合物を有すると分類する。例えば、いくつかの実施形態では、クリーンなホモ接合体はa(maf<0.02)を有すると予想され、クリーンなヘテロ接合体はa(maf>0.4)を有すると予想される。混合物は、a(0.02<maf<0.4)を有するホモ接合体と呼ばれるSNPであり得る。
所定の閾値を超える一定数の汚染SNPの検出は、サンプル中の混合物又は可能性のある混合物(例えば、遺伝的汚染)を示す。例えば、1つ又はそれを超える汚染SNPの検出は、サンプル中の混合物(例えば、遺伝的汚染)を示す。いくつかの実施形態では、2つ又はそれを超える汚染SNPは、サンプル中の混合物(例えば、遺伝的汚染)を示す。いくつかの実施形態では、3つ又はそれを超える汚染SNPは、サンプル中の混合物(例えば、遺伝的汚染)を示す。いくつかの実施形態では、4つ又はそれを超える汚染SNPは、サンプル中の混合物(例えば、遺伝的汚染)を示す。いくつかの実施形態では、5つ又はそれを超える汚染SNPは、サンプル中の混合物(例えば、遺伝的汚染)を示す。いくつかの実施形態では、6つ又はそれを超える汚染SNPは、サンプル中の混合物(例えば、遺伝的汚染)を示す。いくつかの実施形態では、7つ又はそれを超える汚染SNPは、サンプル中の混合物(例えば、遺伝的汚染)を示す。特定の実施形態では、予想されるホモ接合性SNPの少なくとも1%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも2%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも3%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも4%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも5%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも10%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも15%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも20%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。特定の実施形態では、予想されるホモ接合性SNPの少なくとも25%が汚染SNPとしてマークされているサンプルは、混合又は汚染サンプルと見なされる。
特定の実施形態では、純度(又は汚染の量)は、3つの最高頻度SNPの中央値をとることによって報告される。特定の実施形態では、純度(又は汚染の量)は、4つの最高頻度SNPの中央値をとることによって報告される。特定の実施形態では、純度(又は汚染の量)は、3つの最高頻度SNPの中央値をとることによって報告される。特定の実施形態では、純度(又は汚染の量)は、5つの最高頻度SNPの中央値をとることによって報告される。本発明は、純度又は汚染量を報告する上述の方法に限定されない。
特定の実施形態において、汚染されたサンプルは、5%を超える最も高い3つの汚染SNPの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、10%を超える最も高い3つの汚染SNPの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、15%を超える最も高い3つの汚染SNPの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、20%を超える最も高い3つの汚染SNPの中央頻度を有するサンプルである。特定の実施形態において、汚染されたサンプルは、25%を超える最も高い3つの汚染SNPの中央頻度を有するサンプルである。
いくつかの実施形態では、サンプル中の汚染量は1%以下である。いくつかの実施形態では、サンプル中の汚染量は2%以下である。いくつかの実施形態では、サンプル中の汚染量は3%以下である。いくつかの実施形態では、サンプル中の汚染量は4%以下である。いくつかの実施形態では、サンプル中の汚染量は5%以下である。いくつかの実施形態では、サンプル中の汚染量は1~2%以下である。いくつかの実施形態では、サンプル中の汚染量は2~3%以下である。いくつかの実施形態では、サンプル中の汚染量は2~4%以下である。いくつかの実施形態では、サンプル中の汚染量は2~5%以下である。いくつかの実施形態では、サンプル中の汚染量は5~10%以下である。いくつかの実施形態では、サンプル中の汚染量は2~15%以下である。いくつかの実施形態では、サンプル中の汚染量は1%以上である。いくつかの実施形態では、サンプル中の汚染量は2%以上である。いくつかの実施形態では、サンプル中の汚染量は3%以上である。いくつかの実施形態では、サンプル中の汚染量は5%以上である。
非限定的な例として、特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性SNPの少なくとも20%が少なくとも1%の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性SNPの少なくとも10%が少なくとも1%の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性SNPの少なくとも20%が少なくとも2%の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性SNPの少なくとも10%が少なくとも2%の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性SNPの少なくとも20%が少なくとも3%の汚染レベルを有さなければならない。特定の実施形態では、サンプルに汚染のフラグを立てるために、予想されるホモ接合性SNPの少なくとも10%が少なくとも3%の汚染レベルを有さなければならない。
前述したように、第2の対立遺伝子頻度(又は一致しない対立遺伝子の頻度)の計算は、サンプルが同一性について試験され、精液が正しい動物に由来するか否かを確認し、それが由来する動物を決定し、サンプルスワップを識別し、汚染の起源を識別することなどを可能にする。
同一性の試験に関して、サンプル中の遺伝子型は、Council on Dairy Cattle Breeding(CDCB)データベースなどであるがこれに限定されない参照配列と照合することによって決定され得る。サンプルが予想される遺伝子型を有する場合(例えば、予想されるホモ接合性SNPのすべてが予想される遺伝子型のものと一致する場合)、サンプルは合格し得る。そうでない場合、サンプルは、以前にシーケンシングされた遺伝子型(スタンドイン基準)、例えば、限定されないが、実験室で以前にシーケンシングされたサンプル(以前のQCサンプル)、他の産業サンプル、歴史的サンプルなど(例えば、公開データベースであるが、一部の動物は公開データベースにない場合がある)と照合され得る。サンプルがスタンドイン基準として使用される基準シーケンスである場合、サンプルは合格であり得る。サンプルが合格しない場合、サンプルはさらなる分析及び/又は試験に供され得る。
本方法及びシステムは、配列ライブラリー中の配列に基づいて混合試験サンプル中の個体の組合せを識別することができる(例えば、動物#1+動物#2、動物#1+動物#2+動物#3など)。特定の実施形態では、サンプルは、サンプルスワップ又は誤標識であると判定され得る。
本発明は、サンプル中の汚染レベルを計算するために使用される上述のパラメーター又はパラメーターの組合せに限定されない。一般に、定義された基準に対するSNPの全体的な組成及びそれらの比は、1つ又は2つ以上の遺伝的に異なる個体による汚染の程度の推定を可能にする。最終結果は、サンプルがサンプルスワップであるか否か、混合物の割合、汚染の割合、潜在的な汚染物質のリストなど、ミスマッチの数の形をとることができる。他の結果は、各SNPにおける対立遺伝子頻度を含むことができる。前述のように、汚染されたサンプル又は混合物の識別は、サンプルの再試験をもたらし得る。その後、サンプルは純粋であると決定され得る。純度(例えば、純粋なサンプル、混合サンプル)に関する不正確さは、限定はしないが、シーケンシング方法におけるエラー、サンプル調製中の技術者による汚染などの様々な状況に起因し得る。
特定の実施形態では、汚染物質の同一性が決定される。例えば、参照遺伝子型、例えば汚染物質である可能性が高いサンプルの参照遺伝子型に対して検索を行うことができる。いくつかの実施形態では、結果をその日のシーケンシングラン内のすべての配列と比較することによって、汚染物質を同定することができる。
前述のように、サンプル中のSNPのDNA配列は、1つ又は2つ以上の参照配列と比較され得る。特定の実施形態において、参照配列は、配列ライブラリー中の配列である。特定の実施形態において、参照配列は、一群の雄ウシ、例えば、試験される精子サンプルと一致する雄ウシ、試験される精子サンプルと一致しない雄ウシ、ストロー内の精子サンプルの汚染の原因となり得る雄ウシ、特定の群又はコホートにおける雄ウシなどの1つ又は2つ以上の配列である。例えば、参照ライブラリーは、一群の雄ウシからの配列(それぞれが独自のSNPプロファイルを有する)を含み得る。前述のように、参照配列との比較は、サンプルの同一性を確認し、精子サンプルがどの雄牛に属するか、及び/又は、もしあれば、どの雄牛が汚染の起源であるかを識別するのに役立ち得る。
図1Aは、混合されたサンプル又は汚染されたサンプルの結果を示す一連の意図的な混合物を示す。チャート102は、0の混合比を示す。チャート104は、1の混合比を示す。チャート106は、2.5の混合比を示す。チャート108は、5の混合比を示す。チャート110は、7.5の混合比を示す。チャート112は、10の混合比を示す。チャート114は、25の混合比を示す。チャート116は、50の混合比を示す。図1Bにおいて、チャート120、122、124、126、128、130、132及び134は、それぞれの個体Bromley、Ephram、Lateral、Quantum、Chamber、Hartley、Manning及びTulareについて、0、1、2.5、2、5、7.5及び10の混合比でホモ接合性であると予想されるSNPにおける第2の対立遺伝子の頻度を示す。図1Cは、第2の雄牛からの特定の汚染画分を有する様々なサンプルについてのバックグラウンドノイズと比較した混合の証拠を示す。
図2は、ホモ接合性であると予想される特定のSNPの第2の対立遺伝子頻度の一例を示す。図2の例示的なチャートでは、2番、4番、及び10番染色体のSNPは、30%以上で発生する第2の対立遺伝子頻度を有し、2番、3番、5番、8番、18番、及び21番染色体は、0%超30%未満で発生する第2の対立遺伝子頻度を有する。これは、汚染雄牛を識別するための指紋として機能する。例えば、雄牛29HO17718は、その特定の遺伝子型を有する群における唯一の雄牛である。
図3A、図3B、及び図4は、本発明の方法及びシステム及びワークフローの概略図を示す。非100%一致サンプル(又は混合されているか、混合されている可能性があると標識されたサンプル)は、破壊される前に再試験を受ける可能性があることに留意されたい。
例1
以下は、本発明の非限定的な例である。例は、決して本発明を限定することを意図するものではないことを理解されたい。等価物又は置換物は、本発明の範囲内である。
まず、標準的な方法を用いてDNA抽出を行う。次いで、Qiagen Multiplex PCR Master Mix(カタログ番号:206145)及び48個の結合プライマー対を使用して、多重PCRを行う。次いで、生成物をビーズ洗浄し、ゲル上で増幅について検証する。第2のPCRを実行して、Illuminaアダプター配列及びバーコードを付加する。次いで、サンプルをプールし、1×75bpの読み取りを使用してIlluminaシーケンサーなどの次世代シーケンサー(NGS)でシーケンシングする。サンプルを逆多重化し、bcl2fastqによってバーコードによってビニングする。fastqを、BWA MEMを使用してUMD3.1ゲノムにアラインメントする。各SNPにおける対立遺伝子頻度(AF)は、各対立遺伝子を含む読み取りの数を0~.5のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子に使用される。遺伝子型(GT)は、0、1、2のスケールで呼び出され、0はホモ接合参照であり、2はホモ接合交互である。1はヘテロ接合性である。AFが0.2以上である場合、GTは1(ヘテロ接合)である。AFが<.2であり、観察された対立遺伝子が参照である場合、GTは0であり、そうでない場合、GTは2である。遺伝子型が呼び出されると、観察された遺伝子型をデータベース内の遺伝子型と比較することによって、サンプルの同一性を確認することができる。サンプルがデータベース内の遺伝子型と4未満の不一致で一致しない場合、完全一致について乳牛繁殖データベース協会(CDCB)を調べる。>95%の一致を有するヒットが見つかった場合、トップヒットを報告し、サンプルをフルスワップと標識する。汚染を検出するために、ホモ接合性であると予想されるSNPを最初に選択する。汚染が発生した場合、これらのSNPはAF>0.02を有すると予想される。これらの予期せぬAFについて複数のSNPをチェックすることにより、サンプルが汚染されているか否かを判定することができる。上位3つのSNPを使用して、汚染レベルを推定することができる。図3は、本発明の方法に関連するワークフロー300の概略図を示す。本発明は、図3のワークフロー300に限定されない。
図3Bに提供される例示的なワークフロー300を参照すると、ステップ302は、遺伝子サンプルのためのDNAの抽出を提供する。ステップ304では、サンプルの48個のSNPに対して多重PCRを行う。ステップ306において、IlluminaアダプターをPCRによって遺伝子サンプルに付加する。ステップ308において、サンプルは、例えば1×75bpの読み取りを使用して、IlluminaシーケンサーなどのNGS上でシーケンシングされる。ステップ310において、ステップ308からの読み取りがゲノムにアラインメントされる。ステップ312において、各対立遺伝子を支持する読み取りの数がカウントされ、遺伝子サンプルの遺伝子型がコールされる。ステップ314において、ステップ312の結果、コールされた遺伝子型を既知の遺伝子型と比較することによって、例えば、コールされた遺伝子型を配列ライブラリー又はデータベース内の参照配列と比較することによって、サンプルスワップが識別される。ステップ316において、対立遺伝子比を識別することによってサンプル混合物又は汚染物が識別され、混合レベルが決定される。ステップ318において、サンプル状態は、少なくともステップ314における比較及びステップ316における識別に基づいて識別され、サンプル状態は、例えば、クリーン(例えば、汚染、誤標識、又は誤識別の問題がないこと)、混合(例えば、汚染問題)、又はフルスワップ(例えば、誤標識又は誤識別の問題)のうちの1つである。
例2
以下は、本発明の非限定的な例である。例は、決して本発明を限定することを意図するものではないことを理解されたい。等価物又は置換物は、本発明の範囲内である。
以下の例は、本発明の方法及びシステムの特定の実施形態の概要を説明する。
処理及びストローへのパッケージングを受けた収集された精子細胞からDNAを抽出する。以下の方法は、ストロー中のDNAがストローに印刷された雄ウシのDNAであることを確実にするのを助けるために、雄ウシの既知/参照DNAに対してDNAを分析することを記載する。可能性のある汚染物質は、分析システム(アルゴリズム)による汚染物質の最良推定であり、オプションは1回の実行内で処理されるすべての雄牛である(例えば、特定の実施形態では、真の汚染物質がシーケンシングランに存在しない場合、それは識別されない可能性がある)。また、シーケンシングランは、様々な供給源からのDNAを含むことができ、従来の性別されたDNAを含み得ることにも留意されたい。特定の実施形態において、フルランは、96DNAサンプル×6プレートである。しかしながら、本発明はこれらのパラメーターに限定されない。
製造ラボから受け取ったDNAを増幅する。増幅方法は、既知の分散領域を含む一組のSNP、例えば48~49個のSNPを増幅する。SNPの固有のプロファイルは、雄牛に関して既知である。各親動物の遺伝子型も所有され得る。これは、SNP、例えば48~49個のSNPを含む各動物のプロファイルを含む動物遺伝子型のライブラリーを提供する。
各SNP位置におけるDNAの読み取りの仕方(例えば、読み取りが何であるかを決定する)を調べる。各DNA読み取りをライブラリーと比較する。まず、100%の一致を識別する試みがある。100%一致が識別された場合、方法は終了することができる。100%一致が識別できない場合、システムは、ライブラリー内の既知のプロファイルの組合せを識別しようとする。システムは、サンプルが、例えば、動物#1+何か他のもの(別のサンプルからの汚染)を含むか否かを識別することができる。サンプルが、考えられたものではないと判定されてもよく(例えば、「代替」又はサンプルスワップ又は誤標識)、又はサンプルが何らかの汚染物質を含むと判定されてもよい。
非100%一致の推定は、例えば、全ターゲットSNPのうちの10~20個のSNPのサブセットに基づいてもよい。システムは、おおよその混合率、例えば+/-5%を特定することができる。特定の実施形態では、システムは、混合及びサンプルに混合されているものを識別することができる。しかしながら、特定の実施形態では、システムは、混合を識別することができるが、例えば、別の個体が比較に利用できない場合、サンプルに混合されているものを必ずしも識別するわけではない(例えば、汚染物質を識別することが常に可能であるとは限らない場合がある)。
シーケンシングデータ、例えばNGSデータは、シーケンサーから内部データベース(例えば、分析システム、例えば、アプリケーション)に送られ得る。データは、アプリユーザインターフェースにおける出力として提供され得る。アプリからのデータは、出力ファイルとしてエクスポートされてもよい。出力ファイルは、実行されたすべてのバッチ及びそれらの順位表を含むことができる。いくつかの実施形態では、各バッチランの同一性が出力ファイルに示され、追加情報のいくつかの列又はカテゴリーを含むことができる。例えば、情報の1つのカテゴリーは同一性であってもよく、「合格」は、同一性が発見され確認された場合である。情報の他のカテゴリーは以下を含み得る。純度;ゲノミクス、この情報は、試験サンプルが混合物であるか否かに関する;量、この情報は、実行及び分析するのに十分なサンプルがあったか否かに関する;回数、この情報は、動物のサンプルが処理された回数に関する(例えば、32の32は、動物のサンプルが32回処理され、毎回正しく戻ってきたことを意味する。167の155は、動物のサンプルが155回処理されたが、12回はサンプルが混合として戻ってきたことを意味する)。図5は、出力ファイルの仮説的な例を示し、サンプルEX1~EX3は潜在的な混合としてフラグが付けられ、サンプルEX4~EX7は一致と示されている。サンプルEX1~EX3は、エラーの原因を決定するために検討される。サンプルEX4~EX7はすべての試験に合格し、使用のためにリリースされる。
前述のように、量及び純度の閾値を変更することができる。したがって、図5のような出力データは、所定の閾値の関数である。
混合として識別されたアイテムの手動の検討は、比較するゲノムデータがなく、サンプルが7%混合されている場合に実行され得る。いくつかの実施形態では、2つのストローが再試験される。同じ割合の汚染及び同じ数の汚染SNPが検出された場合、サンプルは不合格になる。
特定の実施形態では、フルスワップ(例えば、サンプルの誤標識)は、別の雄牛であると適切に識別された場合には合格となり得る。
例3
以下は、本発明の非限定的な例である。例は、決して本発明を限定することを意図するものではないことを理解されたい。等価物又は置換物は、本発明の範囲内である。
以下の例では、分析システムの概要、例えば分析及び品質管理に使用されるアプリケーションについて説明する。図4は、シーケンサー及び内部データベースと統合された分析システム、ならびに品質管理の概略図を示す。
ユーザ(例えば、技術者)は、分析システム(例えば、アプリケーション)のユーザインターフェースにログインすることができる。ユーザは、特定のサンプルを検討するために、例えば、遺伝的一致(genetic match)を確認するため、サンプルが混合物であったか否かを判定するためなどにシステムを使用することができる。
分析システムは、特定の問題(例えば、混合の可能性、量の不足、予想される参照動物と100%一致ではないなど)をユーザに警告する視覚的インジケータを特徴とし得る。
バッチはランと呼ばれ、ランはいくつかのプレートからなり、各プレートはいくつかのサンプルを含む。
純度又は同一性に関する判定を行うのに十分な配列情報又は十分な読み取りがない場合、失敗が発生する可能性がある。
ある場合には、技術者は混合物のリストを調べる。結果は、X軸が遺伝子座(SNP)であるプロットとして示され得る。サンプルが混合されていると、特徴的なパターンが存在する(例えば、図1A、図1Bを参照されたい)。特定の実施形態では、個々の雄牛のコンセンサス/既知のDNAと一致するSNPを第1の設計(例えば、塗りつぶされた全円、第1の色など)で標識され得る。個々の雄牛のコンセンサス/既知のDNAと一致しないSNPは、第2の設計(例えば、空白の全円、第2の色など)で標識され得る。比較すべきコンセンサス/既知のDNAを有しないSNPは、第3の設計(例えば、Xで標識される、第3の色など)で標識され得る。クリーンサンプルは、汚染又は予想外の結果の指標であるドット(例えば、赤色ドット)を有さない。
分析システム、例えばプロットは、サンプルが汚染されている可能性がある場合、方法において閾値外混合物がいつ存在したかを決定することを可能にする。システムは、方法の出力が間違っているときを視覚化するのに役立つ。
分析システムは、過去のサンプルとの比較を可能にしてもよい。例えば、ユーザは、最近のランを選択して検討することができる。このシステムは、異常値を容易に見るのに役立つ。システムは、方法における問題を示す可能性がある、特定の数のサンプル(ストロー)にわたって、例えば、ストロー20個、30個、40個、50個などにわたって発生する混合(例えば、低レベル混合)を識別するのを助けることができる。
システムは、合格(例えば、遺伝的一致(genetic match)として特定される)、不合格(例えば、ミスマッチ又は可能性のある混合物として特定される)、及び混合(例えば、混合物と考えられるもの)の閾値を設定することを可能にすることができる。特定の実施形態では、閾値は、グラフ又はプロットの線によって視覚化することができる。
前述のように、システムは、汚染又はDNAが少なすぎるなどの問題を示す手段を提供することができる。特定の実施形態では、読み取りカウント及び読み取りパーセンタイルは、シーケンシングがどの程度良好に実行されたかの指標であり、分析システムはデータの信頼性レベルを提供することができる。
非限定的な例として、システムは、汚染又は予想外の結果の指標としてプロット上の赤色ドットを使用することができる。図1Cは、「混合の証拠」として示されたドットが、評価を必要とする潜在的な問題の指標である例を示す。例えば、ヘテロ接合不合格は、混合物の1つがSNPについて予想されたものと全く異なっていたものであり得る。他の不合格は、プロット又はインターフェースの中央にドット(例えば、赤色ドット)として示され得る。特定の実施形態では、本出願は、層状サンプルデータを比較して、個々の動物の一貫した失敗の領域を見ることを可能にする。
本発明の好ましい実施形態を示し説明したが、添付の特許請求の範囲を超えない修正を行うことができることは当業者には容易に明らかであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるべきである。いくつかの実施形態では、この特許出願に提示された図は、角度、寸法の比などを含む縮尺通りに描かれている。いくつかの実施形態では、図は代表的なものにすぎず、特許請求の範囲は図の寸法によって限定されない。いくつかの実施形態では、「含む(comprising)」という語句を使用して本明細書に記載される発明の説明は、「から本質的になる(consisting essentially of)」又は「からなる(consisting of)」と記載され得る実施形態を含み、したがって、「から本質的になる(consisting essentially of)」又は「からなる(consisting of)」という語句を使用して本発明の1つ又は2つ以上の実施形態を特許請求するための書面による説明要件が満たされる。

Claims (55)

  1. 以下を含む、試験サンプルから抽出されたDNAを処理する方法:
    a.SNPプライマー対のプールを使用して、試験サンプルから抽出されたDNAをヌクレオチド増幅に付すステップ、
    ただし、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、前記ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成する;
    b.前記プール中の各アンプリコンについてヌクレオチド配列を生成するために、前記SNPアンプリコンのプールをシーケンシングに付すステップ;
    c.各SNPについて前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を計算するステップ;
    d.ターゲットSNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を参照配列と比較するステップ、
    ただし、前記ターゲットSNPのサブセットは、ホモ接合性であると予想されるSNPの群である、ステップ;
    ただし、
    前記ターゲットSNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度が前記参照配列中の対応するSNPと完全に一致する場合、前記試験サンプルは前記参照配列のものと同じであり、
    前記SNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度が前記参照配列中の対応するSNPと正確に一致しない場合、前記SNPのサブセット中の各SNPにおける一致しない対立遺伝子の頻度が計算され、特定のSNPにおける一致しない対立遺伝子の頻度が所定の不一致閾値を上回る場合、前記特定のSNPは汚染SNPであるとされ、
    汚染SNPの数が所定の汚染SNP閾値を上回る場合、前記サンプルは汚染されていると識別される。
  2. 試験サンプルが精子サンプルである、請求項1に記載の方法。
  3. 精子サンプルが、動物の性別を決定するための機械に供されており、生きた精子及び死んだ精子を含む、請求項2に記載の方法。
  4. 方法が多重検定であり、少なくとも2つのサンプルが前記方法に同時に供される、請求項1に記載の方法。
  5. プライマープールが少なくとも48個のプライマーセットを含む、請求項1に記載の方法。
  6. ヌクレオチド増幅がPCR増幅であり、シーケンシングが次世代シーケンシング(NGS)である、請求項1に記載の方法。
  7. ヌクレオチド増幅ステップが、プライマー対を用いたPCR増幅と、次世代シーケンシングのためのアダプター配列及びバーコードを付加する後続のPCR工程とを含む、請求項1に記載の方法。
  8. 各SNPについて第1の対立遺伝子及び第2の対立遺伝子の頻度を計算し、各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を配列ライブラリーにおける参照配列又は参照配列の群の頻度と比較するための分析システムを使用することをさらに含む、請求項1~7のいずれかに記載の方法。
  9. SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が、参照配列中のそれらの同じSNPと完全に一致する場合、試験サンプルは少なくとも98%純粋である、請求項1に記載の方法。
  10. 試験サンプルが1つ以上の汚染SNPを有する場合、前記試験サンプルは汚染されていると識別される、請求項1に記載の方法。
  11. 1つ又は2つ以上の遺伝的に異なる個体による汚染率を提供する、請求項1に記載の方法。
  12. サンプルが適切な量の遺伝物質を有することを確実にするために、前記サンプルを分析することをさらに含む、請求項1に記載の方法。
  13. SNPのサブセットにおけるSNPの一致しない対立遺伝子の頻度が、0~1の数として計算される、請求項1に記載の方法。
  14. 所定の不一致閾値が、0.5%、1%、2%、又は5%である、請求項1~13のいずれかに記載の方法。
  15. サンプルが、SNPのサブセット内に汚染SNPである少なくとも5つのSNPを有する場合、前記サンプルが汚染サンプルと見なされる、請求項1に記載の方法。
  16. SNPのサブセット中のSNPの少なくとも5%、少なくとも10%、又は少なくとも1%が汚染SNPである場合、前記サンプルが汚染サンプルと見なされる、請求項1に記載の方法。
  17. 各SNPにおける対立遺伝子頻度が、各対立遺伝子を含む読み取りの数を0~.5のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用され、遺伝子型が0、1、2のスケールで呼ばれ、0は参照配列に従ってホモ接合性であり、2はホモ接合性であるが前記参照配列とは反対であり、1はヘテロ接合性であり、前記対立遺伝子頻度が0.2以上である場合、前記遺伝子型は1又はヘテロ接合性であり、前記対立遺伝子頻度が<.2であり、かつ前記対立遺伝子が前記参照配列と同じである場合、前記遺伝子型は0又はホモ接合性であり、又は前記参照配列と反対である場合、前記遺伝子型は2である、請求項1に記載の方法。
  18. 方法が、汚染の起源を識別することをさらに含む、請求項1に記載の方法。
  19. 試験サンプル中の汚染の起源を決定することが、前記試験サンプルを1つ又は2つ以上の代替参照配列と比較することを含み、前記汚染が前記1つ又は2つ以上の代替参照配列まで追跡され得る、請求項1に記載の方法。
  20. 代替参照配列が、配列ライブラリー、公開データベース又は産業データベースからのものである、請求項19に記載の方法。
  21. サンプルが参照配列と一致する場合、前記サンプルが使用又は販売され得ることを示すために前記サンプルを標識することをさらに含む、請求項1に記載の方法。
  22. サンプルが参照配列と一致する場合、販売又は使用のために前記サンプルを提供することをさらに含む、請求項1に記載の方法。
  23. サンプルが汚染されていると識別された場合、前記サンプルを使用又は販売することができないことを示すために前記サンプルを標識することをさらに含む、請求項1に記載の方法。
  24. サンプルが汚染されていると識別された場合、前記サンプルを破壊することをさらに含む、請求項1に記載の方法。
  25. サンプルの同一性を確認し、前記サンプルの純度を決定し、前記サンプルの汚染を検出し、前記サンプルの汚染の起源を決定することを可能にする、請求項1に記載の方法。
  26. 前記サンプルが分析に十分な遺伝物質を有するかを判定することをさらに含む、請求項1に記載の方法。
  27. サンプルが、誤って標識されたサンプル又はサンプルスワップである、請求項1に記載の方法。
  28. 以下を含む、試験サンプルから抽出されたDNAにおける遺伝的一致(genetic match)を検出するために処理する方法:
    a.SNPプライマー対のプールを使用して、試験サンプルから抽出されたDNAをヌクレオチド増幅に付すステップ、
    ただし、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、前記ヌクレオチド増幅が、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成する;
    b.前記プール中の各アンプリコンについてヌクレオチド配列を生成するために、前記SNPアンプリコンのプールをシーケンシングに付すステップ;
    c.各SNPについて前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を計算するステップ;
    d.前記ターゲットSNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を参照配列と比較するステップ、
    ただし、前記ターゲットSNPのサブセットはホモ接合性であると予想されるSNPの群である、ステップ;
    ただし、前記ターゲットSNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度が前記参照配列中の対応するSNPと完全一致する場合、前記試験サンプルには遺伝的一致(genetic match)がある。
  29. 以下を含む、試験サンプルから抽出されたDNAを汚染を検出するために処理する方法:
    a.SNPプライマー対のプールを使用して、試験サンプルから抽出されたDNAをヌクレオチド増幅に付すステップ、
    ただし、各SNPプライマー対は、第1の対立遺伝子及び第2の対立遺伝子を定義する単一のターゲットSNPを含む固有の遺伝子座に隣接し、前記ヌクレオチド増幅は、SNPアンプリコンのプールを生成する各SNPプライマー対のアンプリコンを生成する;
    b.前記プール中の各アンプリコンについてヌクレオチド配列を生成するために、前記SNPアンプリコンのプールをシーケンシングに供するステップ;
    c.各SNPについて前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を計算するステップ;
    d.前記ターゲットSNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を参照配列と比較するステップ、ただし、前記ターゲットSNPのサブセットがホモ接合性であると予想されるSNPの群である、ステップ;
    ただし、前記SNPのサブセット中の各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度が前記参照配列中の対応するSNPと正確に一致しない場合、前記SNPのサブセット中の各SNPについて一致しない対立遺伝子の頻度が計算され、特定のSNPにおける前記一致しない対立遺伝子の頻度が所定の不一致閾値を上回る場合、前記特定のSNPは汚染SNPであるとされ、
    前記汚染SNPの数が所定の汚染SNP閾値を上回る場合、前記サンプルは汚染されていると識別される。
  30. 試験サンプルが精子サンプルである、請求項27又は28に記載の方法。
  31. 精子サンプルが、動物の性別を決定するための機械に供されており、生きた精子及び死んだ精子を含む、請求項30に記載の方法。
  32. 方法が多重検定であり、少なくとも2つのサンプルが前記方法に同時に供される、請求項27又は28に記載の方法。
  33. プライマープールが少なくとも48個のプライマーセットを含む、請求項27又は28に記載の方法。
  34. ヌクレオチド増幅がPCR増幅であり、シーケンシングが次世代シーケンシング(NGS)である、請求項27又は28に記載の方法。
  35. ヌクレオチド増幅ステップが、プライマー対を用いたPCR増幅と、次世代シーケンシングのためのアダプター配列及びバーコードを付加する後続のPCR工程とを含む、請求項27又は28に記載の方法。
  36. 各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度を計算し、各SNPにおける前記第1の対立遺伝子及び前記第2の対立遺伝子の頻度を配列ライブラリーにおける参照配列又は参照配列の群の頻度と比較するための分析システムを使用することをさらに含む、請求項27又は28に記載の方法。
  37. SNPのサブセット中の各SNPにおける第1の対立遺伝子及び第2の対立遺伝子の頻度が、参照配列中のそれらの同じSNPと完全に一致する場合、試験サンプルは少なくとも98%純粋である、請求項27又は28に記載の方法。
  38. 試験サンプルが1つ以上の汚染SNPを有する場合、前記試験サンプルは汚染されていると識別される、請求項27又は28に記載の方法。
  39. 1つ又は2つ以上の遺伝的に異なる個体による汚染率を提供する、請求項27又は28に記載の方法。
  40. 方法が、サンプルが適切な量の遺伝物質を有することを確実にするために、前記サンプルを分析することをさらに含む、請求項27又は28に記載の方法。
  41. SNPのサブセットにおけるSNPの一致しない対立遺伝子の頻度が、0~1の数として計算される、請求項27又は28に記載の方法。
  42. 所定の不一致閾値が、0.5%、1%、2%、又は5%である、請求項27又は28に記載の方法。
  43. サンプルが、SNPのサブセット内に汚染SNPである少なくとも5つのSNPを有する場合、前記サンプルが汚染サンプルと見なされる、請求項27又は28に記載の方法。
  44. SNPのサブセット中のSNPの少なくとも5%、少なくとも10%、又は少なくとも1%が汚染SNPである場合、前記サンプルが汚染サンプルと見なされる、請求項27又は28に記載の方法。
  45. 各SNPにおける対立遺伝子頻度が、各対立遺伝子を含む読み取りの数を0~.5のスケールでカウントすることによって計算され、より小さい対立遺伝子が分子において使用され、遺伝子型が0、1、2のスケールで呼ばれ、0は参照配列に従ってホモ接合性であり、2はホモ接合性であるが前記参照配列とは反対であり、1はヘテロ接合性であり、前記対立遺伝子頻度が0.2以上である場合、前記遺伝子型は1又はヘテロ接合性であり、前記対立遺伝子頻度が<.2であり、かつ前記対立遺伝子が前記参照配列と同じである場合、前記遺伝子型は0又はホモ接合性であり、又は前記参照配列と反対である場合、前記遺伝子型は2である、請求項27又は28に記載の方法。
  46. 汚染の起源を識別することをさらに含む、請求項27又は28に記載の方法。
  47. 試験サンプル中の汚染の起源を決定することが、前記試験サンプルを1つ又は2つ以上の代替参照配列と比較することを含み、前記汚染が前記1つ又は2つ以上の代替参照配列まで追跡され得る、請求項27又は28に記載の方法。
  48. 代替参照配列が、配列ライブラリー、公開データベース又は産業データベースからのものである、請求項47に記載の方法。
  49. サンプルが参照配列と一致する場合、前記サンプルが使用又は販売され得ることを示すために前記サンプルを標識することをさらに含む、請求項27又は28に記載の方法。
  50. サンプルが参照配列と一致する場合、販売又は使用のために前記サンプルを提供することをさらに含む、請求項27又は28に記載の方法。
  51. サンプルが汚染されていると識別された場合、前記サンプルを使用又は販売することができないことを示すために前記サンプルを標識することをさらに含む、請求項27又は28に記載の方法。
  52. サンプルが汚染されていると識別された場合、前記サンプルを破壊することをさらに含む、請求項27又は28に記載の方法。
  53. 請求項1~52のいずれかに記載の方法を実行するためのコンピュータ実装システム。
  54. 請求項1~52のいずれかに記載の方法におけるステップのうちの1つ又は2つ以上を実行するためのシステム。
  55. 請求項1~52のいずれかに記載の方法における1つ又は2つ以上のステップの数学的及び/又は統計的演算をコンパイル及び/又は編成及び/又は実行するための分析システム。
JP2023523627A 2020-10-21 2021-10-21 同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム Pending JP2023547610A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063094750P 2020-10-21 2020-10-21
US63/094,750 2020-10-21
PCT/US2021/056094 WO2022087299A1 (en) 2020-10-21 2021-10-21 Methods and systems for processing genetic samples to determine identity or detect contamination

Publications (1)

Publication Number Publication Date
JP2023547610A true JP2023547610A (ja) 2023-11-13

Family

ID=81186059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023523627A Pending JP2023547610A (ja) 2020-10-21 2021-10-21 同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム

Country Status (6)

Country Link
US (1) US20220119865A1 (ja)
EP (1) EP4232601A1 (ja)
JP (1) JP2023547610A (ja)
CN (1) CN116368237A (ja)
AU (1) AU2021365488A1 (ja)
WO (1) WO2022087299A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE435925T1 (de) * 2003-01-17 2009-07-15 Univ Boston Haplotypanalyse
US7981609B2 (en) * 2006-06-09 2011-07-19 The Brigham And Women's Hospital, Inc. Methods for identifying and using SNP panels
CA3074244A1 (en) * 2017-08-29 2019-03-07 Assistance Publique - Hopitaux De Paris Method to confirm variants in ngs panel testing by snp genotyping
WO2019043656A1 (en) * 2017-09-01 2019-03-07 Genus Plc METHODS AND SYSTEMS FOR ASSESSING AND / OR QUANTIFYING POPULATIONS OF SPERMATOZOIDS WITH SEXUAL ASYMMETRY
CN113330121A (zh) * 2018-12-17 2021-08-31 纳特拉公司 用于循环细胞分析的方法
WO2020182193A1 (en) * 2019-03-12 2020-09-17 Crown Bioscience (Suzhou) Inc. Methods and compositions for identification of tumor models

Also Published As

Publication number Publication date
AU2021365488A1 (en) 2023-06-01
US20220119865A1 (en) 2022-04-21
WO2022087299A1 (en) 2022-04-28
CN116368237A (zh) 2023-06-30
EP4232601A1 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
Hoffman et al. Microsatellite genotyping errors: detection approaches, common sources and consequences for paternal exclusion
CN106462670B (zh) 超深度测序中的罕见变体召集
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
US7229764B2 (en) System for tracing animal products
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN109182538A (zh) 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法
US20190032125A1 (en) Method of detecting chromosomal abnormalities
CN113450871A (zh) 基于低深度测序的鉴定样本同一性的方法
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
Panoutsopoulou et al. Quality control of common and rare variants
JP2023547610A (ja) 同一性を決定する又は汚染を検出するために遺伝子サンプルを処理するための方法及びシステム
US20210366575A1 (en) Methods and systems for detection and phasing of complex genetic variants
CN109182505A (zh) 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法
Pacault et al. Non-invasive prenatal diagnosis of single gene disorders with enhanced relative haplotype dosage analysis for diagnostic implementation
González et al. MADloy: Robust detection of mosaic loss of chromosome Y from genotype-array-intensity data
Balan et al. MICon Contamination Detection Workflow for Next-Generation Sequencing Laboratories Using Microhaplotype Loci and Supervised Learning
EP3653731B1 (en) Method for performing genotyping analysis
Szmatoła et al. A detailed characteristics of bias associated with long runs of homozygosity identification based on medium density SNP microarrays
WO2024047977A1 (ja) 2種以上の検査を実施可能な遺伝学的解析方法
CN109182504A (zh) 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法
JP7121440B1 (ja) 多型座位の信号の信頼性値の算出方法
CN114790493B (zh) 一种单纯疱疹病毒的mnp标记位点、引物组合物、试剂盒及其应用
Presson et al. Merging microsatellite data: enhanced methodology and software to combine genotype data for linkage and association analysis
da Costa Hermisdorff et al. Investigating the accuracy of imputed genotypes in Nellore cattle using the ARS-UCD1. 2 assembly of the bovine genome
Rissman Mapping copy number variants across the cattle genome