JP2022502786A - 胚における染色体異常を識別するためのシステムおよび方法 - Google Patents

胚における染色体異常を識別するためのシステムおよび方法 Download PDF

Info

Publication number
JP2022502786A
JP2022502786A JP2021518537A JP2021518537A JP2022502786A JP 2022502786 A JP2022502786 A JP 2022502786A JP 2021518537 A JP2021518537 A JP 2021518537A JP 2021518537 A JP2021518537 A JP 2021518537A JP 2022502786 A JP2022502786 A JP 2022502786A
Authority
JP
Japan
Prior art keywords
sequence information
sample
genomic sequence
baseline
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021518537A
Other languages
English (en)
Inventor
ジョン バーク,
マイケル ジェイ. ラージ,
ジョシュア ブラゼク,
Original Assignee
クーパーゲノミクス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クーパーゲノミクス, インコーポレイテッド filed Critical クーパーゲノミクス, インコーポレイテッド
Publication of JP2022502786A publication Critical patent/JP2022502786A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/04Physical realisation
    • G06N7/046Implementation by means of a neural network
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Abstract

胚における染色体異常を識別するための方法が開示される。胚から得たサンプルゲノム配列情報が受容され、このサンプルゲノム配列情報は複数のゲノム配列リードから構成される。このサンプルゲノム配列情報は参照ゲノムに対して整列される。このサンプルゲノム配列情報はベースラインゲノム配列情報に対して正規化されてサンプルゲノム配列情報を遺伝子座効果に関して補正し正規化されたサンプルゲノム配列情報データセットを生成する。エラー要因の回帰分析に由来する1種またはこれより多くの補正因子が、上記正規化したサンプルゲノム配列情報データセットに適用されて技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する。このノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動が、上記参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に識別される。

Description

分野
本明細書で開示される実施形態は、一般に、子宮へ移植するための胚候補を識別するためのシステムおよび方法に関する。より具体的には、将来の母に移植するための人工受精した胚候補における染色体異常を識別するための自律的なシステムおよび方法が必要である。
背景
人工授精は、将来の母への胚移植へと続いていくことが意図される。胚が与えられる場合、健康な子が成功裡に産まれることを妨げ得る欠陥をチェックすることは重要であり、複数の胚が与えられる場合、IVFの各サイクルにつき最適な胚を選択して、移植の成功確率を増大させなければならない。
過去には、胚の形態の顕微鏡検査または染色体のバンド形成パターンの顕微鏡検査が、最適とはいえない胚を識別するために臨床専門家によって使用された。これらの方法は、解像度が最適ではなく、それが技師に依拠することに起因して、一貫性がなかった。従来の核型分析は、5メガベース(mb)より大きな特徴を検出することに制限され、FISHアッセイは、ほんの1mb未満に制限され、ともに、特定のゲノム遺伝子座に関してデザインされなければならないプローブセットによって制限される。顕微鏡法によって胚候補を検査するために専門家を使用することは、事務的なおよび検査のエラー率、ならびに他の不確実性を胚スクリーニングプロセスに持ち込む。
次世代シーケンシング(NGS)の利用可能性は、従来の核型分析方法より遙かに少ない特注作業しか要しない全ゲノム適用範囲を提供する。さらに、アッセイ費用は、より深いシーケンシングがより高い解像度を可能にする、所望の解像度のためにも最適化され得るシーケンシング深度を介して制御され得る。
しかし、NGS核型分析は、シグナル対ノイズに関して問題がある。具体的には、サンプル取り扱い、増幅バイアス、グアニン−シトシン(GC)含量および異なるゲノム遺伝子座間での技術的差異のような交絡因子に起因して;同一コピー数の類似サイズの領域は通常、非常に異なるシーケンスカウントを有する。これらの交絡因子によって引き起こされる差異はしばしば、コピー数の真の変化によって引き起こされる際より振れ幅が大きい。従って、NGSデータの正確な解釈には、コピー数シグナルを、交絡因子に由来するノイズから効果的に分離し得る方法が必要である。
さらに、ノイズ除去したコピー数シグナルが与えられる場合、細胞遺伝学的状態(異数性またはセグメントの重複/欠失といわれる)またはカリオグラムへの解釈はまた、いくつかの難題を課し得る。第1の問題は、研究室が進めなければならないサンプルの多さである。別の問題は、実際には正常である(正常=体細胞領域がコピー数2、性染色体は少なくとも1コピー数がX染色体に属した上で2を意味する)ゲノム領域におけるコピー数変動特徴であると思われる人工物の割合である(ノイズ除去したデータにおいてすら)。また、あらゆるコピー数変化が、臨床的重要性において等しいわけではなく、重篤な結果を伴う染色体異常性は、より大きく重要視されるべきである。最後に、以前のおよび現在の方法は、不確実性、主観、疲労、不十分なトレーニング、および不正確さの他の原因に由来するエラーを持ち込むプロットのヒトによる検査に過度に依拠する。
よって、胚候補における染色体異常を正確に/強固に識別して、移植された場合に成功裡の妊娠を生じるという最高の成績を有する胚の選択を可能にし得る方法またはシステムが必要である。
要旨
1つの局面において、胚における染色体異常を識別するための方法が開示される。胚から得たサンプルゲノム配列情報が受容され、ここで上記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される。上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する。エラー要因の回帰分析に由来する1種またはこれより多くの補正因子は、上記正規化したサンプルゲノム配列情報データセットに適用されて、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する。上記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動が、上記参照ゲノム上の染色体位置に整列されるゲノム配列リードの頻度が頻度閾値から外れる場合に識別される。
別の局面において、胚における染色体異常を識別するためのシステムが開示される。上記システムは、データ格納ユニット、コンピューティングデバイスおよびディスプレイから構成され、これらは全て、互いに通信可能に接続されている。
上記データ格納ユニットは、胚から得たサンプルゲノム配列情報を格納するように構成される。上記コンピューティングデバイスは、データノイズ除去エンジンおよび解釈エンジンを提供する。上記データノイズ除去エンジンは、サンプルゲノム配列情報を上記データストレージから受容し、上記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成される。上記解釈エンジンは、上記ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、上記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成される。
上記ディスプレイは、上記識別したコピー数変動を含む報告書を表示するように構成される。
なお別の局面において、胚における性別異数性を識別するための方法が開示される。胚から得たサンプルゲノム配列情報が受容され、ここで上記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される。上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する、エラー要因の回帰分析に由来する1種またはこれより多くの補正因子は、上記正規化したサンプルゲノム配列情報データセットに適用されて、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する。訓練済みニューラルネットワークは、上記ノイズ除去したサンプルゲノム配列情報データセットを分析し、上記胚の性別異数性状態を分類する。
本明細書で開示される原理およびその利点のより完全な理解のために、ここで添付の図面と合わせて以下の詳細な説明が言及される。
図1A〜1Eは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すBLUEFUSE(登録商標)視覚化グラフである。 図1A〜1Eは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すBLUEFUSE(登録商標)視覚化グラフである。 図1A〜1Eは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すBLUEFUSE(登録商標)視覚化グラフである。 図1A〜1Eは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すBLUEFUSE(登録商標)視覚化グラフである。 図1A〜1Eは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すBLUEFUSE(登録商標)視覚化グラフである。
図2は、種々の実施形態に従う、染色体異常を識別するための方法を示す例示的フローチャートである。
図3は、種々の実施形態に従う、リードカウントを遺伝子座効果に関してどのように正規化するかを図示する。
図4は、種々の実施形態に従う、目的のサンプルとベースラインサンプルとの間の類似性の評価を図示するプロットである。
図5は、種々の実施形態に従う、ベースラインセットにおける多数のベースラインサンプルからベースラインベクトルをどのようにして構築するかの図解である。
図6Aは、種々の実施形態に従う、胚データのビン効果正規化を図示するプロットである。
図6Bは、種々の実施形態に従う、リアルタイムサンプル効果補正を図示するプロットである。
図7は、種々の実施形態に従う、LOWESS技術がGC含量のためにどのようにして使用されるかの図解である。
図8A〜8Bは、種々の実施形態に従う、ビンスコアに対するGC技術効果を示すプロットである。 図8A〜8Bは、種々の実施形態に従う、ビンスコアに対するGC技術効果を示すプロットである。
図9は、種々の実施形態に従う、胚における染色体異常を識別するためのシステムの模式図である。
図10は、種々の実施形態に従う、コンピューターシステムを図示するブロック図である。
図11は、種々の実施形態に従う、胚における性別異数性を識別するための方法を示す例示的フローチャートである。
図12は、種々の実施形態に従う、隠れマルコフモデル(HMM)有限状態機械トポロジーの図解である。
図13A〜13Bは、種々の実施形態に従う、第15染色体における欠失を示すノイズ除去および正規化したプロットである。 図13A〜13Bは、種々の実施形態に従う、第15染色体における欠失を示すノイズ除去および正規化したプロットである。
図14は、種々の実施形態に従う、複雑な胚性別異数性を決定するために染色体クラスターを使用する方法を示すプロットである。
図15は、種々の実施形態に従う、胚における複雑な性別異数性の推測のための正規化およびノイズ除去したビンデータニューラルネットワークの図解である。
図16は、種々の実施形態に従う、フィードフォワードネットワーク構造の図解である。
図17は、種々の実施形態に従う、ILLUMINA(登録商標))が提供する従来の主観的呼び出し方法(BLUEFUSE(登録商標)ソフトウェアに対して、本明細書で開示される改善されたシステムおよび方法(PGTai)を比較する場合に、種々の倍数性分類における正味の変化を示すグラフである。
図面は、必ずしもスケールどおりに描かれておらず、図面における対象物は、互いに対する関係性においても必ずしもスケールどおりに描かれていないことが理解されるべきである。図面は、本明細書で開示される装置、システム、および方法の種々の実施形態を明確にし、理解することが意図される図解である。同じまたは類似の部分に言及するために、可能な限り、同じ参照番号が図面全体を通じて使用される。さらに、図面が、本教示の範囲を限定することは如何様にも意図されないことは認識されるべきである。
詳細な説明
本明細書は、人工受精した移植用胚候補における染色体異常を識別するためのシステムおよび方法の種々の例示的実施形態を記載する。しかし、本開示は、これらの例示的実施形態および適用にも、例示的実施形態および適用が機能するかまたは本明細書で記載される様式にも限定されない。さらに、図面は、単純化した図または部分図を示してもよく、図面の中の要素の寸法は、誇張されていてもよいし、そうでなければ比例していなくてもよい。さらに、用語「上に(on)」、「に取り付けられる(attached to)」、「に接続される(connected to)」、「に連結される(coupled to)」、または類似の文言が本明細書で使用される場合、1つの要素(例えば、材料、層、基材など)は、もう1つの要素「上に」あり得るか、もう1つの要素「に取り付けられ得る」か、「に接続され得る」か、または「に連結され得る」。それは、上記1つの要素が、他方の要素上に直接存在するか、その要素に取り付けられるか、接続されるか、もしくは連結されるか、または上記1つの要素と他方の要素との間に1もしくはこれより多くの介在する要素が存在するかにかかわらない。さらに、要素の列挙(例えば、要素a、b、c)に対して言及される場合、このような言及は、それ自体、列挙された要素の全てより少ない任意の組み合わせ、および/または列挙された要素の全ての組み合わせによって、上記列挙された要素のうちのいずれか1つを含むことが意図される。本明細書中の章立ては、検討を容易にするに過ぎず、考察される要素のいかなる組み合わせをも限定しない。
別段定義されなければ、本明細書で記載される本教示とともに使用される科学用語および技術用語は、当業者によって一般に理解される意味を有するものとする。さらに、文脈によって別段要求されなければ、単数形の用語は、複数形を含むものとし、複数形の用語は、単数形を含むものとする。一般に、本明細書で記載される細胞および組織培養、分子生物学、ならびにタンパク質およびオリゴヌクレオチドまたはポリヌクレオチド化学およびハイブリダイゼーションに関して、およびこれらの技術において利用される命名法は、当該分野で周知かつ一般に使用されるものである。例えば、核酸精製および調製、化学分析、組換え核酸、ならびにオリゴヌクレオチド合成に関して、標準的技術が使用される。酵素反応および精製技術は、製造業者の仕様書に従って、または当該分野で一般に達成されるかもしくは本明細書で記載されるように、行われる。本明細書で記載される技術および手順は、概して、当該分野で周知の、ならびに本明細書全体を通じて引用および考察される種々の一般的なおよびより具体的な参考文献に記載されるとおりの従来の方法に従って行われる。例えば、Sambrookら, Molecular Cloning: A Laboratory Manual(第3版, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000)を参照のこと。関連して利用される命名法、ならびに本明細書で記載される実験手順および技術は、当該分野で周知であり、一般的に使用されるものである。
DNA(デオキシリボ核酸)は、4タイプのヌクレオチド;A(アデニン)、T(チミン)、C(シトシン)、およびG(グアニン)からなるヌクレオチドの鎖であり、RNA(リボ核酸)は、4タイプのヌクレオチド;A、U(ウラシル)、G、およびCから構成される。ヌクレオチドのある特定のペアは、相補的な様式(相補的塩基対形成といわれる)で互いに特異的に結合する。すなわち、アデニン(A)はチミン(T)と対形成し(しかし、RNAの場合には、アデニン(A)は、ウラシル(U)と対形成する)、シトシン(C)は、グアニン(G)と対形成する。第1の核酸鎖が、この第1の核酸鎖の中のヌクレオチドに相補的であるヌクレオチドから構成される第2の核酸鎖に結合する場合、その2つの鎖は、2本鎖を形成するように結合する。ヒト参照ゲノムは、これらの鎖のうちの一方の代表である(これは、本明細書で使用される場合、鎖1といわれる)。本明細書で使用される場合、鎖1の逆相補体は、鎖2といわれる。本明細書で使用される場合、「核酸シーケンシングデータ(nucleic acid sequencing data)」、「核酸シーケンシング情報(nucleic acid sequencing information)」、「核酸配列(nucleic acid sequence)」、「ゲノム配列(genomic sequence)」、「遺伝子配列(genetic sequence)」、もしくは「フラグメント配列(fragment sequence)」、または「核酸シーケンシングリード(nucleic acid sequencing read)」は、DNAまたはRNAの分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど)の中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミン/ウラシル)の順序を示す任意の情報またはデータを示す。本教示が、全ての入手可能な種々の技術、プラットフォームまたは科学技術(キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接的もしくは間接的なヌクレオチド識別システム、パイロシーケンシング、イオンもしくはpHがベースの検出システム、電子署名ベースのシステムなどが挙げられるが、これらに限定されない)を使用して得られる配列情報を企図することは、理解されるべきである。
「ポリヌクレオチド(polynucleotide)」、「核酸(nucleic acid)」、または「オリゴヌクレオチド(oligonucleotide)」とは、ヌクレオシド間連結によって結合したヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログを含む)の直線状ポリマーに言及する。代表的には、ポリヌクレオチドは、少なくとも3個のヌクレオシドを含む。通常、オリゴヌクレオチドは、数個のモノマー単位(例えば、3〜4)から数百のモノマー単位のサイズの範囲に及ぶ。ポリヌクレオチド(例えば、オリゴヌクレオチド)が、文字配列(例えば、「ATGCCTG」)によって表される場合は常に、別段注記されなければ、ヌクレオチドは、左から右に5’→3’の順序で存在し、「A」はデオキシアデノシンを示し、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、「T」はチミジンを示すことが理解される。文字A、C、G、およびTは、当該分野で標準であるように、塩基自体に、ヌクレオシドに、または塩基を含むヌクレオチドに言及するために使用され得る。
語句「次世代シーケンシング(next generation sequencing)」(NGS)とは、例えば、一度に数十万もの比較的小さな配列リードを生成する能力を有する、古典的なサンガー法ベースのおよびキャピラリー電気泳動ベースのアプローチと比較した場合、増大したスループットを有するシーケンシング技術に言及する。次世代シーケンシング技術のいくつかの例としては、合成ごとのシーケンシング(sequencing by synthesis)、ライゲーションごとのシーケンシング(sequencing by ligation)、およびハイブリダイゼーションごとのシーケンシング(sequencing by hybridization)が挙げられるが、これらに限定されない。より具体的には、IlluminaおよびPersonal Genome Machine(PGM)のMISEQ、HISEQおよびNEXTSEQ Systems、ならびにLife Technologies CorpのSOLiD Sequencing Systemは、全ゲノムまたは標的化したゲノムの大規模並列シーケンシングを提供する。SOLiD Systemおよび関連するワークフロー、プロトコール、化学物質などは、PCT公報番号WO 2006/084132(発明の名称「Reagents, Methods, and Libraries for Bead−Based Sequencing」、国際出願日2006年2月1日)、米国特許出願第12/873,190号(発明の名称「Low−Volume Sequencing System and Method of Use」、出願日2010年8月31日)、および米国特許出願第12/873,132号(発明の名称「Fast−Indexing Filter Wheel and Method of Use」、出願日2010年8月31日)により詳細に記載される(これら出願の各々の全体は、本明細書に参考として援用される)。
語句「シーケンシング実行(sequencing run)」とは、少なくとも1個の生体分子(例えば、核酸分子)に関するある種の情報を決定するために行われるシーケンシング実験の任意の工程または一部に言及する。
本明細書で使用される場合、語句「ゲノム特徴(genomic feature)」とは、変異、組換え/交差もしくは遺伝的浮動に起因して、特定の種にまたは特定の種内の部分集団に対して参照されるとおりの変化を受けた単一の遺伝子または遺伝子群(DNAまたはRNAにおいて)を示す、ある種の註釈付き機能(例えば、遺伝子、タンパク質コード配列、mRNA、tRNA、rRNA、反復配列、逆方向反復、miRNA、siRNAなど)を有するゲノム領域または遺伝子/ゲノム改変体(例えば、一ヌクレオチド多型/改変体、挿入/欠失配列、コピー数変動、反転など)に言及し得る。
ゲノム改変体は、種々の技術(アレイベースの方法(例えば、DNAマイクロアレイなど)、リアルタイム/デジタル/定量的PCR機器の方法および全核酸または標的化核酸シーケンシングシステム(例えば、NGS systems、Capillary Electrophoresis systemsなど)が挙げられるが、これらに限定されない)を使用して識別され得る。核酸シーケンシングを用いると、適用範囲データは、単一塩基解像度において利用可能であり得る。
語句「フラグメントライブラリー(fragment library)」とは、核酸配列の集まりに言及し、ここで1またはこれより多くのフラグメントは、シーケンシングテンプレートとして使用される。フラグメントライブラリーは、例えば、より大きな核酸をより小さな核酸に切断または剪断することによって生成され得る。フラグメントライブラリーは、天然に存在する核酸(例えば、哺乳動物または細菌の核酸)から生成され得る。類似のサイズの合成核酸配列を含むライブラリーはまた、合成フラグメントライブラリーを作り出すために生成され得る。
語句「染色体異常(chromosomal abnormality)」または「染色体異常(chromosomal abnormalities)」とは、構造上の(例えば、欠失、重複、転座、反転、挿入など)および数字上(すなわち、異数性)の染色体障害の両方を示す。
語句「モザイク胚(mosaic embryo)」とは、2またはこれより多くの細胞遺伝学的に別個に細胞系統を含む胚を示す。例えば、モザイク胚は、異なるタイプの異数性または正倍数性の混合を有する細胞系統、および妊娠中に胚の生存能力に有害であり得る遺伝子改変体を有するDNAを含む遺伝的に異常な細胞を含み得る。
種々の実施形態において、配列整列法は、フラグメント配列を、参照配列または別のフラグメント配列に整列させ得る。上記フラグメント配列は、フラグメントライブラリー、ペアードエンドライブラリー(paired−end library)、メイトペアライブラリー(mate−pair library)、鎖状フラグメントライブラリー(concatenated fragment library)、または核酸配列情報(例えば、RNA、DNA、およびタンパク質ベースの配列情報を含む)によって反映され得るかもしくは表され得る別のタイプのライブラリーから得られ得る。一般に、フラグメント配列の長さは、参照配列の長さより実質的に短い可能性がある。上記フラグメント配列および上記参照配列は、各々、一連の記号を含み得る。フラグメント配列および参照配列のアラインメントは、上記フラグメント配列の記号と上記参照配列の記号との間の制限された数のミスマッチを含み得る。一般に、上記フラグメント配列は、上記フラグメント配列と上記参照配列との間のミスマッチの数を最小化するために、上記参照配列の一部に対して整列され得る。
特定の実施形態において、上記フラグメント配列および上記参照配列の記号は、生体分子の組成を表し得る。例えば、上記記号は、核酸(例えば、RNAまたはDNA)におけるヌクレオチドの正体、またはタンパク質におけるアミノ酸の正体に相当し得る。いくつかの実施形態において、上記記号は、生体分子のこれらの下位構成要素に対して直接的な相関関係を有し得る。例えば、各記号は、ポリヌクレオチドの1個の塩基を表し得る。他の実施形態において、各記号は、上記生体分子の2またはこれより多くの隣接する下位構成要素(たとえば、ポリヌクレオチドの2個の隣接する塩基)を表し得る。さらに、上記記号は、隣接する下位構成要素の重なり合うセットまたは隣接する下位構成要素の別個のセットを表し得る。例えば、各記号がポリヌクレオチドの2個の隣接する塩基を表す場合、重複するセットを表す2個の隣接する記号は、ポリヌクレオチド配列の3個の塩基に相当し得るのに対して、別個のセットを表す2個の隣接する記号は、4個の塩基の配列を表し得る。さらに、上記記号は、下位構成要素(例えば、ヌクレオチド)に直接相当し得るか、またはそれらは、上記下位構成要素のカラー呼び出しまたは他の間接的尺度に相当し得る。例えば、上記記号は、特定のヌクレオチドフローに関する組み込みまたは非組み込みに相当し得る。
種々の実施形態において、コンピュータープログラム製品が、フラグメント配列の連続する部分を選択する命令;上記参照配列に対して上記連続する部分の少なくとも1つのマッチを生じるおよそのストリングマッチング方法を使用して、上記フラグメント配列の連続する部分を参照配列にマッピングする命令を含み得る。
種々の実施形態において、核酸配列分析のためのシステムは、データ分析ユニットを含み得る。上記データ分析ユニットは、フラグメント配列をシーケンシング機器から得る、参照配列を得る、上記フラグメント配列の連続する部分を選択する、および上記参照配列に対して上記連続する部分の少なくとも1つのマッチを生じるおよそのストリングマッチング方法を使用して、上記フラグメント配列の連続する部分を上記参照配列にマッピングするように構成され得る。
本明細書で使用される場合、「実質的に(substantially)とは、意図した目的に向かって作業するために十分であることを意味する。用語「実質的に」とは、従って、絶対的状態または完全な状態、寸法、測定値、結果などからの小さな、重大でない変動(例えば、当業者によって予測されるが、全体的な性能に明らかに影響を及ぼさないもの)を許容する。数値またはパラメーターまたは数値として表され得る特性に関して使用される場合、「実質的に」とは、10%以内を意味する。
用語「1つ(ones)」とは、1より大きいを意味する。
本明細書で使用される場合、用語「複数(plurality)」は、2、3、4、5、6、7、8、9、10、または10超であり得る。
本明細書で使用される場合、用語「細胞(cell)」とは、用語「生物学的細胞(biological cell)」と交換可能に使用される。生物学的細胞の非限定的な例としては、真核生物細胞、植物細胞、動物細胞(例えば、哺乳動物細胞、爬虫類細胞、鳥類細胞、魚類細胞など)、原核生物細胞、細菌細胞、真菌細胞、原生動物細胞など、組織(例えば、筋、軟骨、脂肪、皮膚、肝臓、肺、神経組織など)から解離した細胞、免疫学的細胞(例えば、T細胞、B細胞、ナチュラルキラー細胞、マクロファージなど)、胚(例えば、接合子)、卵母細胞、卵子、精細胞、ハイブリドーマ、培養した細胞、細胞株に由来する細胞、がん細胞、感染した細胞、トランスフェクトしたおよび/または形質転換した細胞、レポーター細胞などが挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などに由来し得る。
NGSデータを処理して、染色体異常を識別するための従来の方法
NGSデータを使用する多くの臨床パイプラインは、類似の初期ワークフローをたどる。第1に、シーケンシング機器を使用して生成される生の配列は、多重分離(demultiplex)される;多くのサンプルが同時にシーケンシングされる場合、異なる被験体に由来する配列は、配列が被験体に割り当てられた後に除去される初期バーコードでタグ化される。アダプターまたは他の人工的特徴は、その生成した配列から除去される。配列はしばしば、上記生成した配列の塩基を、既知のゲノム参照配列に整列させるかまたはマッチさせるコンピュータープログラムによってゲノム遺伝子座に割り当てられ、PCR重複および低品質配列はしばしば、アラインメントプロセスの間にまたは直後に除去される。処理され、遺伝子座にマッチさせた配列はしばしば、呼び出された整列済み配列または整列済みリードである。目的の各サンプルから生成した配列の数はしばしば、「シーケンシング深度(sequencing depth)」といわれる。
コピー数変動(CNV)呼び出しに対する従来のアプローチの商業的実行は、k個の近位ビンに対してスライディングウインドウ内のメジアンを採用することによってデータを平滑化するIllumina(BLUEFUSE(登録商標))によって提供される。
CNVは、1またはこれより多くの遺伝子の異常なコピー数を生じるゲノム変化であり、疾患に寄与し得る。BLUEFUSE(登録商標)ソフトウェアは、ユーザーが遺伝的異常性を可視化、分析および解釈することを可能にするグラフを生成する。
正常な染色体数を有する胚は、正倍数体胚である。図1Aに示されるように、正倍数体胚は、グラフのx軸上に示される各染色体番号(1〜22)の2つのコピー(グラフのy軸上)を有するとして、BLUEFUSE(登録商標)グラフ上に可視化される。性別に関して、女性胚は、2コピーのX染色体を有し、Y染色体のコピーを有しない(図1Aに示されるとおり)。そして男性胚は、1コピーのX染色体および1コピーのY染色体を有する。
異常な染色体数を有する胚は、他方で、異数性胚である。コピーを獲得した染色体(通常の2コピーの代わりに3コピー)はトリソミーといわれ、コピーを失った染色体(通常の2コピーの代わりに1コピー)はモノソミーといわれる。図1Bは、モノソミーを有する男性異数性胚を示す。第1〜14染色体、第16〜22染色体に関しては2コピーが可視化され、第15染色体(モノソミー)に関しては1コピーのみが可視化される。また、胚が男性であることを示す1コピーのX染色体およびY染色体が存在する。
染色体の一部のみが、異常にコピーされるかまたは欠失される場合、それは、それぞれ、重複または欠失といわれる。図1Cは、第5染色体上の欠失を有する男性胚を示す。第1〜4、第6〜22染色体に関して2コピーが可視化され、染色体5の一部が欠失される。また、上記胚が男性であることを示す1コピーのX染色体およびY染色体が存在する。
特定の染色体に関して正常および異常な細胞を有する胚は、モザイク胚といわれる。視覚的には、この胚は、正常(2コピー)と異常(それがトリソミーまたはモノソミーであるかに依存して、1コピーまたは3コピーのいずれか)と間にある染色体コピー数を有する。図1Dは、モザイク第16染色体を有する男性胚を示す。第1〜15、第17〜22に関しては2コピーが可視化され、第16染色体はモザイクである(コピー数2.5を伴う)。上記胚が男性であることを示す1コピーのX染色体およびY染色体が存在する。
BLUEFUSE(登録商標)ソフトウェアが採用したアプローチには重大な制限が存在する。胚生検の質に妥協が必要な場合、DNAは劣化しているか、またはライブラリー調製自体に伴う問題がある場合、データを解釈することがより困難になる。なぜならデータのノイズ(バックグラウンド)レベルが増大するからである。ノイズレベルが高くなるほど、正常からのどの変化が、DNAの品質自体に伴う問題に対して実際の遺伝的異常性であり得るかを解読することは難題になる。これらの欠点の結果は、セグメント呼び出しもしくはモザイク呼び出し、または複雑な性別異数性呼び出しが、正規化したビンスコアのプロットの検査によって、技師によって行われなければならないことである。ヒトが画像を解釈することと関連する主観および不確実性は、胚を染色体異常に関して分析するにあたって不必要な変動をもたらし得る。図1Eは、高いノイズレベルを伴う男性胚を示し、これは、技師が、胚において真の遺伝的異常性が存在するか否かを解釈することを困難にする。
NGSデータを処理して染色体異常を識別するための自動化機器解釈法
セグメントの重複/欠失、モザイク特徴、ならびに複雑な性別異数性を含む染色体異常の自動化検出のためのシステムおよび方法が、開示される。概念としては、これらのシステムおよび方法は、2つの主なパイプラインを有する: 1)ノイズ除去/正規化(生の配列リードをノイズ除去する)、および2)解釈(ノイズ除去/正規化したシグナルを、カリオグラムおよび臨床上の異数性呼び出しへとデコードする)。
図2は、種々の実施形態に従う、胚における染色体異常の自動化識別のための方法200を示す例示的フローチャートである。工程202において、胚から得たサンプルゲノム配列情報が受容される。上記サンプルゲノム情報は、NGS、PCR等を含む種々のゲノムシーケンス技術を使用して生成した複数のゲノム配列リードから構成される。工程204において、上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。種々の実施形態において、上記参照ゲノムは、ヒト参照ゲノムである。
工程206において、上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正する。遺伝子座効果は、コピー数に変化がない場合でも配列適用範囲の変化と関連するゲノム位置の局面である。遺伝子座効果の例は、1)塩基位置の50個、100個、150個など塩基の範囲内のGC含量、2)ゲノム位置の周りのDNAが二次構造を形成する潜在的能力、3)他のゲノム位置に対する類似性などであり得るが、これらに限定されない。
種々の実施形態において、上記サンプルゲノム配列情報を遺伝子座効果に関して正規化する工程は、ビンサイズを最初に設定することを包含する。種々の実施形態において、上記ビンサイズは、1メガベース(mb)に設定される。しかし、上記ビンサイズが、ヒトゲノムの長さを超えない限りにおいて、任意のサイズ(100kb、500kb、または100万〜2000万の間の任意の他の値を含む)に設定され得ることは理解されるべきである。次に、上記サンプルゲノム配列情報およびベースラインゲノム配列情報は、上記ビンサイズに基づいて、複数のビンへとセグメント化される。次いで、複数のサンプルゲノム配列情報ビンの各々に対して整列されるサンプルゲノム配列情報からのゲノム配列リードの数は、複数のサンプルゲノム配列情報ビンの各々に関してサンプルビンスコアを生成するために決定される。
次に、上記複数のベースラインゲノム配列情報ビンの各々に対して整列される上記ベースラインゲノム配列情報からのゲノム配列リードの数は、複数のベースラインゲノム配列情報ビンの各々に関してベースラインビンスコアを生成するために決定される。次いで、上記サンプルビンスコアは、ベースラインビンスコアに対して正規化されて、正規化したサンプルゲノム配列データセットを生成する。
種々の実施形態において、上記ベースラインビンスコアを、正倍数性胚から得た複数のベースラインゲノム配列情報データセットを最初に受容することによって決定した。次いで、上記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを、決定した。次に、上記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを有するベースラインゲノム配列情報データセットのサブセットを、複数のベースラインゲノム配列情報データセットから選択した。最後に、上記ベースラインビンスコアを、ベースラインゲノム情報データセットの選択したサブセットにおいてビンスコアのメジアン値を決定することによって生成した。
工程208において、エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成した。
工程210において、CNVを、参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、上記ノイズ除去したサンプルゲノム配列情報データセットから識別する。
方法200の種々の局面は、図3〜8Bに示される。図3に示されるように、各鎖(上記で記載されるとおりのヒトゲノムの鎖1および鎖2)および各ビンに関して、nxは、同じ鎖上の目的のサンプルに関する二倍体染色体に対して整列されるリード302の総数によって調整したビンカウントとして定義される。
図4に示されるように、遺伝子座(ビン)効果に関する第1の補正は、目的のサンプルからのビンカウントを、正倍数性サンプルのベースラインセットに対して正規化することによって行われ得る。上記ビンサイズは、最初に、1メガベースに設定され得る 304。しかし、そのビンサイズが本質的に任意のサイズ(100kb、500kb、または100万〜2000万の間の任意の他の値を含む)に設定され得ることは、認識されるべきである。次に、図5に示されるように、上記サンプルゲノム配列情報は、複数のビンへとセグメント化され、次いで、最適性が目的のサンプルnxに最も類似のベースラインnxを有すると定義されるビン効果に対して正規化されるように、ベースラインサンプルの最適なサブセットが選択される(全体のベースラインセットを使用する代わりに)。次いで、類似性は、ベースラインサンプルに関するnxおよび目的のサンプルに関するnxの相関関係として定量される。種々の実施形態において、ランク相関関係がまた、類似性の尺度として使用され得るが、多くの代替手段が存在する(例えば、MSE/残差平方和、ユークリッド距離またはマハラノビス距離)。
目的のサンプルとベースラインサンプルとの間の類似性を計算するために上記の方法が与えられる場合、目的のサンプルに対して最高の類似性を有するベースラインからのサンプルを、選択した。
類似性値のセット s={s1, s2, …, s(ベースラインサンプルの数)}が与えられる場合、ベースラインサンプルと目的のサンプルとの間の類似性(s>tを有するベースラインサンプル)を選択した(ここでtは、sのg番目のパーセンタイルである)。種々の実施形態において、パラメーターgは、90%に設定され得るが、10%、30%、50%、80%または1〜100の間の任意の他の数にも設定され得る。遺伝子座カウントに対するビン限界効果を補正することに加えて、これは、1つのビンの適用範囲が別のビンの適用範囲を知らせる場合に、相関したスコアを有する遠位ビンを補正する。ベースラインサンプルの最適なサブセットを選択した後、上記目的のサンプルのビンスコアは、メジアンベースラインサブセット正規化ビンスコアによって正規化される。次いで、正規化は、除算によって行われ得、結果は、1.0を中心としたビンスコアのベクトルである。
遺伝子座効果を補正することに関するこれらの方法の1つの利益は、実行サンプルが蓄積されることおよび正倍数性サンプルが将来的な正規化を知らせ、従って、正規化したビンスコアのノイズを少なくし、時間を経てオーバーシステム(over system)をより正確にする。
遺伝子発現または調節のような、シーケンシングの時点での目的のサンプルの状態に特異的な生物学的プロセス(すなわち、リアルタイムサンプル効果)はまた、シーケンシングプロセスの間にゲノム利用可能性に潜在的に影響を及ぼし得るが、それらは補正され得る。これらのリアルタイム効果の1つの結果は、個々の鎖のシグナル減弱である。局所的に重み付けした散布図平滑化(LOWESS)予測因子(estimator)は、r=(順方向鎖からのビンスコアの割合)によってビンシグナルの鎖特異的補正を導出するために使用され得る。次いで、鎖特異的ビンスコアは、この補正因子によって正規化(除算)され得る。図6Aおよび6Bに示されるように、LOWESSは、rに最も近い値を有するデータ点(r, bin_score)のサブセットを使用するに過ぎない、rを中心とした低次多項式フィットの予測によって、rの各値において補正因子602を計算する。
上記で注記されるように、「c」および「g」塩基の遺伝子座特異的濃度ならびに他の技術的効果(例えば、増幅バイアス、二次構造、ヌクレオソーム密度、miRNA停止、遺伝子発現など)は、ビンにおける配列カウントに影響を及ぼし得る;しかし、上記の遺伝子座効果補正は、これらの技術的効果に対する各サンプルの差次的な応答を説明しない。サンプル相互作用補正に関連する多くの技術的効果が存在する。図7に示されるように、GC含量効果は、LOWESSを使用しても補正され得る。LOWESSは、技術的効果の各レベルに関する補正を定義し、ビンスコアを上記因子によって正規化する(差し引きする)ために使用され得る。図8Aおよび8Bに示されるように、LOWESSは、pに最も近いgc値を有するデータ点(gc, bin_score)のサブセットを使用するに過ぎない、pを中心とした低次多項式フィットの予測によって、gcパーセンテージの各値pにおける補正を計算する。
図9は、種々の実施形態に従う、胚における染色体異常を識別するためのシステムの模式図である。システム900は、シーケンサー902、コンピューティングデバイス/分析サーバー904およびディスプレイ912を含む。
シーケンサー902は、コンピューティングデバイス/分析サーバー904に通信可能に接続されている。種々の実施形態において、コンピューティングデバイス904は、ゲノムシーケンサー902に、「配線で接続された(hardwired)」物理的ネットワーク接続(例えば、インターネット、LAN、WAN、VPNなど)またはワイヤレスネットワーク接続(例えば、Wi−Fi、WLANなど)のいずれかであり得るネットワーク接続を介して通信可能に接続され得る。種々の実施形態において、コンピューティングデバイス904は、ワークステーション、メインフレームコンピューター、分散型コンピューティングノード(「クラウドコンピューティング(cloud computing)」または分散型ネットワーキングシステムの一部)、パーソナルコンピューター、モバイルデバイスなどであり得る。種々の実施形態において、ゲノムシーケンサー902は、核酸シーケンサー(例えば、NGS、Capillary Electrophoresisシステムなど)、リアルタイム/デジタル/定量的PCR機器、マイクロアレイスキャナーなどであり得る。しかし、ゲノムシーケンサー902が、本質的には、ゲノムフラグメントを含むサンプルから核酸配列データを生成し得る機器の任意のタイプであり得ることは、理解されるべきである。
ゲノムシーケンサー502の種々の実施形態が、ライゲーションベースの方法、合成ごとのシーケンシング、単一分子法(single molecule methods)、ナノポアシーケンシング、および他のシーケンシング技術を含む種々のシーケンシング法を実施するために使用され得ることは、当業者によって認識される。ライゲーションシーケンシングは、単一のライゲーション技術を含み得るか、またはライゲーション技術を変化させ得る。この場合、多数のライゲーションを、単一の一時核酸配列鎖に対して順に行う。合成ごとのシーケンシングは、色素標識ヌクレオチドの組み込み、連鎖停止、イオン/タンパク質シーケンシング、ピロリン酸シーケンシング(pyrophosphate sequencing)などを含み得る。単一分子技術は、連続シーケンシング(ここで核タイプの正体は、シーケンシング反応を一時停止または遅らせる必要性なしに、組み込みの間に決定される)、または千鳥状の配列(staggered sequence)(ここでシーケンシング反応は、組み込まれたヌクレオチドの正体を決定するために一時停止される)を含み得る。
種々の実施形態において、ゲノムシーケンサー902は、核酸(例えば、ポリヌクレオチドまたはオリゴヌクレオチド)の配列を決定し得る。上記核酸は、DNAまたはRNAを含み得、1本鎖(例えば、ssDNAおよびRNA)、または2本鎖(例えば、dsDNAまたはRNA/cDNAペア)であり得る。種々の実施形態において、上記核酸は、フラグメントライブラリー、メイトペアライブラリー、クロマチン免疫沈降(ChIP)フラグメントなどを含み得るかまたはこれらに由来し得る。特定の実施形態において、ゲノムシーケンサー902は、単一の核酸分子から、または実質的に同一の核酸分子の群から、配列情報を得ることができる。
種々の実施形態において、ゲノムシーケンサー902は、種々の異なる出力データファイルタイプ/フォーマット(*.fasta、*.csfasta、*.xsq、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*.srsおよび/または*.qvが挙げられるが、これらに限定されない)において、核酸シーケンシングリードデータ(ゲノム配列情報)を出力し得る。
種々の実施形態において、シーケンサー902は、サンプル実行の間にシーケンサー902によって生成されるサンプルゲノムシーケンシング情報を格納するように構成されたデータストレージをさらに含む。
コンピューティングデバイス/分析サーバー904は、データノイズ除去エンジン906、人工知能(AI)/機械学習(ML)式解釈エンジン908およびAI/ML式性別異数性識別エンジン910を主催するように構成され得る。
データノイズ除去エンジン906は、サンプルゲノム配列情報を、シーケンサー902(またはシーケンサー902と関連したデータストレージ)から受容し、上記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、サンプリングエラー要因の回帰分析に由来する1種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成され得る。
AI/ML式解釈エンジン908は、ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、上記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成され得る。
AI/ML式性別異数性エンジン910は、訓練済みニューラルネットワークを利用して、上記ノイズ除去したサンプルゲノム配列情報データセットを分析し、胚の性別異数性状態を分類するように構成され得る。
染色体異常が識別された後、その結果は、コンピューティングデバイス904に通信可能に接続された、ディスプレイまたはクライアント端末912上に表示され得る。種々の実施形態において、クライアント端末912は、薄いクライアントコンピューティングデバイスであり得る。種々の実施形態において、クライアント端末912は、データノイズ除去エンジン906、人工知能(AI)/機械学習(ML)式解釈エンジン908および/またはAI/ML式性別異数性識別エンジン910の作動を制御するために使用され得る、ウェブブラウザ(例えば、INTERNET EXPLORERTM、FIREFOXTM、SAFARITMなど)を有するパーソナルコンピューティングデバイスであり得る。
解釈
ビンレベル正規化およびノイズ除去が完全である場合、ビンスコアは、1.0が中心になる(これは、コピオースウ状態2を表す)。次いで、機械学習および「人工知能(artificial intelligence)」方法は、遺伝子座スコアをカリオグラムおよび臨床的異数性呼び出しへと解釈(またはデコード)するために使用され得る。
図12に示されるように、隠れマルコフモデル(HMM)は、音声認識およびシグナル処理において一般的な機械学習技術のファミリーである。各染色体に関して、有限状態機械は、入力データ特性およびユーザーが所望する解像度によってパラメーター化される放出および移行確率とともに構築される。
各染色体位置、jにおいて、モデルは、多くの状態を有し、各状態は、コピー数変化の割合を表す。初期状態は全て、等しい確率で与えられ、次のゲノムビンへと進む場合の状態間の移行は、平均して、>=3メガベースの領域を作製する継続時間モデル化によって定義される(これは、メガベースビンサイズにおいて、非2.0コピー数状態において残っている確率が1/3であり、全ての他の移行が等しい確率を有するように構成可能なパラメーターである)。各状態によって放出されるスコアは、標準偏差がビンスコアから予測され、コピー数値k*res(ここでresは、定義された解像度(デフォルト0.01)である)に関して平均値(k*res)/2.0の正規分布をたどる(本発明の範囲においては、異なる分布が可能である)。本発明者らのHMMによって与えられる、ビンをコピー数に割り当てるプロセスは、デコードといわれ、これは、1つの状態における構成員(membership)の確率を各観察に割り当てる標準的方法であるフォワード−バックワードアルゴリズムを使用して行われる。Viterbiのような他のデコードアルゴリズムがまた、使用され得る。フォワード−バックワードアルゴリズムによる初期デコードは、各ビンが各状態に存在する確率を定義するので、各ビンをコピー数状態に割り当てる。
種々の実施形態において、本明細書で開示されるシステムおよび方法は、データの不均一性に適応し得る。上記で記載される「Blue Fuse」方法において、等分散性(デフォルト0.33)は、全ての遺伝子座にわたって全てのサンプルに対して想定される。本明細書で記載されるように、HMMは、デフォルトによって、目的のサンプルの動的に計算された分散によってパラメーター化され、これは、低分散を有するサンプル(しばしば、より高いシーケンシング深度またはDNA品質を有するサンプル)に関してより高い解像度を可能にし、より変動性のサンプル(しばしば、より低いシーケンシング深度またはDNA品質を有するサンプル)に関して偽陽性の非二倍体割り当ての数を制御する。
種々の実施形態において、本明細書で開示されるシステムおよび方法は、機械学習を使用して、データにおける不均質性および分散不均一性が説明され得るように、コピー数を遺伝子座に割り当てる。例えば、図13A〜13Bに示されるように、正規化し、ノイズ除去したビンスコアは一定の中心を有するが、それらは、異なる拡がりまたは標準偏差を有する。特に、図13Aは、第15染色体における欠失を示すカリオグラムグラフを示す。ノイズ除去し、正規化したビンスコア1306は、デコードしたコピー数のライン1302の周りにより密集して分布する。図13Bは、ベースライン正規化した胚サンプルのサブセットの正規化したビンスコア1304が、正規化していないビンスコア1308の一定でない分散に対して示されるカリオグラムグラフを示す。HMMは、不均質様式で作動して、遺伝子座特異的変動性に適応し得る。
種々の他の非HMM方法(例えば、循環性バイナリーセグメント化(circular binary segmentation)、貪欲アルゴリズム、およびコピー数状態を割り当て、本開示の範囲内になお残るために使用され得る他のものが存在し得る。
種々の実施形態において、本明細書で開示されるシステムおよび方法は、胚における複雑な性別異数性の存在を正確に決定する能力を有する。上記で考察されるBLUEFUSE(登録商標)方法は、例えば、47:XXY(性別異数性)、47:XXX(性別異数性)、69:XXY(三倍性)または69:XYY(三倍性)の自律的な複雑な性別異数性呼び出しを提供できない。
図14は、種々の実施形態に従う、染色体クラスターを使用して、複雑な胚性別異数性を決定する方法を示すプロットである。この方法は、マハラノビス統計距離(Mahabalonis statistical distance)に伴うk近傍法のような分類法とともに、機械学習方法(例えば、以下から構成されるベクトルに対するk近傍法:{Xに対して整列された配列の割合、ビン正規化したX染色体スコア、Yに対して整列された配列の割合、ビン正規化したYスコア})を使用して、性別異数性状態を割り当てる。
種々の実施形態において、本明細書で開示されるシステムおよび方法はまた、ニューラルネットワーク方法および他の「人工知能」方法を利用し得る。すなわち、ゲノムにわたるビンスコアは、異数性状態を推定するために、ニューラル学習多層パーセプトロン法で処理され得る。
種々の実施形態において、フィードフォワードネットワークに供給する、ゲノムにわたるビンスコアのうちの全てまたはいくつかの入力を特定するために使用される上記ニューラルネットワークトポロジー1500は、図15に示されるように、複雑な性別異数性結果/呼び出し1506とともに、それぞれ、4つのノード1502および2つのノード1504を含む2つの隠れ層から構成される。次いで、誤差逆伝播法は、胚性別異数性状態が既知である訓練データのセットに対するニューラルネットワーク重みを構築するために使用され得る。
図16は、種々の実施形態に従う、フィードフォワードネットワーク構造の図解である。種々の実施形態において、ネットワークへの入力(入力層)は、上記の「ノイズ除去および正規化(de−noising and normalization)」の説明においてまたは類似のプロセスを通じて構築されるように、正規化したビンスコアのサブセットであり、デフォルトによって、染色体XおよびYにおける全ての正規化したビンならびに全ての常染色体(ヒトゲノムの第1〜22染色体)が使用される。種々の実施形態において、検査によって決定されるか、またはどのビンが性別決定にとってより重要であるかを決定するプロセスによって予測されるように、染色体または染色体ビンのサブセットも使用され得る。
ネットワークの隠れ層は、入力と出力との間にある。種々の実施形態において、胚における複雑な性別異数性を識別するためのニューラルネットワークは、2つの隠れ層を含み、ここで第1の隠れ層は4つのノードから構成され、第2の隠れ層は2つのノードから構成され、各層は、さらなるバイアスノードを有する。しかし、異なるノードを有する異なる数の隠れ層が、特定の適用の要件に依存して使用され得ることは、認識されるべきである。
最後の出力層は、可能な結果の各々に対して1つのノードを有する(この場合には、各性別状態に関して1つのノード)。
各非入力ノードの構造は、出力が入力の非線形的「活性化関数(activation function)」である標準的パーセプトロンであり得る。デフォルトによって、上記活性化関数は、正規化線形関数(ReLU)であり得るが、ELU、シグモイド、ArcTangent、Step、softmaxおよび多くの他の活性化関数が、本開示の範囲において使用され得る。
ReLU活性化を用いると、出力fは、ノード入力xが与えられる場合、最大(0, x)である。
しかし、多くの他のタイプのニューラルネットワークが本開示の範囲において適用され売ることは、理解されるべきである;例えば、畳み込みニューラルネットワーク(さらなるプーリング層および畳み込み層を有する)、再帰型ニューラルネットワーク(ここでノードは、前のノードへの接続を有する)など。
本明細書で開示されるシステムおよび方法の明確な利点のうちの1つは、以前に実行したサンプルおよび解釈が、上記システムおよび方法を、時間を経てより正確にするように訓練することを助け得る将来的なデコードを知らせるために蓄積され得ることである。本明細書で開示されるシステムおよび方法の種々の実施形態において、親サンプルにおける特徴および/または転座の知識はまた、小さな転座の検出を可能にする学習の中に組み込まれ得る。
図11は、種々の実施形態に従う、胚における性別異数性を識別するための方法1100を示す例示的フローチャートである。
工程1102において、胚から得たサンプルゲノム配列情報が受容される。上記サンプルゲノム情報は、種々のゲノムシーケンシング技術(NGS、PCRなどが挙げられる)を使用して生成した複数のゲノム配列リードから構成される。工程1104において、上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。種々の実施形態において、上記参照ゲノムは、ヒト参照ゲノムである。
工程1106において、上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正する。
種々の実施形態において、上記サンプルゲノム配列情報を遺伝子座効果に関して正規化する工程は、最初にビンサイズを設定する工程を含む。種々の実施形態において、上記ビンサイズは、1メガベース(mb)に設定される。しかし、上記ビンサイズが、ヒトゲノムの長さを超えない限りにおいて、任意のサイズ(100kb、500kb、または100万〜2000万の間の任意の他の値を含む)に設定され得ることは理解されるべきである。次に、上記サンプルゲノム配列情報およびベースラインゲノム配列情報は、選択されたビンサイズに基づいて、複数のビンへとセグメント化される。次いで、上記複数のサンプルゲノム配列情報ビンの各々に対して整列されるサンプルゲノム配列情報からのゲノム配列リードの数は、複数のサンプルゲノム配列情報ビンの各々に関してサンプルビンスコアを生成するために決定される。
次に、上記複数のベースラインゲノム配列情報ビンの各々に対して整列される上記ベースラインゲノム配列情報からのゲノム配列リードの数は、複数のベースラインゲノム配列情報ビンの各々に関してベースラインビンスコアを生成するために決定される。次いで、上記サンプルビンスコアは、ベースラインビンスコアに対して正規化されて、正規化したサンプルゲノム配列データセットを生成する。
種々の実施形態において、上記ベースラインビンスコアを、正倍数性胚から得た複数のベースラインゲノム配列情報データセットを最初に受容することによって決定した。次いで、上記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを、決定した。次に、上記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを有するベースラインゲノム配列情報データセットのサブセットを、複数のベースラインゲノム配列情報データセットから選択した。最後に、上記ベースラインビンスコアを、ベースラインゲノム情報データセットの選択したサブセットにおいてビンスコアのメジアン値を決定することによって生成した。
工程1108において、エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成した。
工程1110において、上記ノイズ除去したサンプル配列情報データセットは、胚の複雑な性別異数性状態を分類するために、訓練済みニューラルネットワークアルゴリズム/技術を使用して分析され得る。
コンピューター実行システム
種々の実施形態において、胚における染色体異常を識別するための方法は、コンピューターソフトウェアまたはハードウェアを介して実行され得る。すなわち、図9に示されるように、上記方法は、データノイズ除去エンジン906、人工知能(AI)/機械学習(ML)式解釈エンジン908およびAI/ML式性別異数性識別エンジン910を含むコンピューティングデバイス/システム904上で実行され得る。種々の実施形態において、コンピューティングデバイス/システム904は、直接的な接続を介してまたはインターネット接続を経て、NGSシーケンサー902およびディスプレイデバイス912に通信可能に接続され得る。
図9に示される種々のエンジンが、特定の適用またはシステムアーキテクチャの要件に依存して、単一のエンジン、構成要素またはモジュールへと組み合わされ得るかまたは折りたたまれ得ることは、認識されるべきである。さらに、種々の実施形態において、データノイズ除去エンジン906、人工知能(AI)/機械学習(ML)式解釈エンジン908およびAI/ML式性別異数性識別エンジン910は、特定の適用またはシステムアーキテクチャによって必要とされる場合、さらなるエンジンまたは構成要素を含み得る。
図10は、本教示の実施形態が実行され得るコンピューターシステム1000を図示するブロック図である。本教示の種々の実施形態において、コンピューターシステム1000は、バス1002または情報を通信するための他の通信機構、および情報を処理するためにバス1002と連結されたプロセッサ1004を含み得る。種々の実施形態において、コンピューターシステム1000はまた、プロセッサ1004によって実行されるべき命令を決定するために、バス1002に連結された、ランダムアクセスメモリ(RAM)1006であり得るメモリまたは他の動的格納デバイスを含み得る。メモリはまた、プロセッサ1004によって実行される命令を遂行する間に、一時的変数または他の中間情報を格納するために使用され得る。種々の実施形態において、コンピューターシステム1000は、プロセッサ1004のための静的情報および命令を格納するために、バス1002に連結された、リードオンリーメモリ(ROM)1008または他の静的格納デバイスをさらに含み得る。格納デバイス1010(例えば、磁気ディスクまたは光学ディスク)が提供され得、情報および命令を格納するためにバス1002に連結され得る。
種々の実施形態において、コンピューターシステム1000は、コンピューターユーザーに情報を示すために、バス1002を介して、ディスプレイ1012(例えば、陰極線管(CRT)または液晶ディスプレイ(LCD))へと連結され得る。入力デバイス1014(英数字キーおよび他のキーを含む)は、プロセッサ1004への情報およびコマンド選択を通信するために、バス1002へと連結され得る。別のタイプのユーザー入力デバイスは、プロセッサ1004へと方向情報およびコマンド選択を通信し、ディスプレイ1012上のカーソルの動きを制御するためのカーソルコントロール1016(例えば、マウス、トラックボールまたはカーソル方向キー)である。この入力デバイス1014は、代表的には、上記デバイスが平面における位置を特定することを可能にする2軸(第1の軸(すなわち、x)および第2の軸(すなわち、y))において2つの自由度を有する。しかし、三次元(x、yおよびz)のカーソルの動きを可能にする入力デバイス1014がまた、本明細書で企図されることは、理解されるべきである。
本教示のある特定の実行と一致して、メモリ1006の中に含まれる1またはこれより多くの命令の1またはこれより多くのシーケンスを実行するプロセッサ1004に応答して、コンピューターシステム1000によって結果が提供され得る。このような命令は、メモリ1006へと、別のコンピューター可読媒体またはコンピューター可読格納媒体(例えば、格納デバイス1010)から読み取られ得る。メモリ1006の中に含まれる命令のシーケンスの遂行は、プロセッサ1004に、本明細書に記載されるプロセスを行わせ得る。あるいは、配線で接続された回路は、本教示を実行するソフトウェア命令の代わりにまたはこれと組み合わせて、使用され得る。従って、本教示の実行は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。
用語「コンピューター可読媒体(computer−readable medium)(例えば、データストレージ(data store)、データストレージ(data storage)など)または「コンピューター可読格納媒体(computer−readable storage medium)」とは、本明細書で使用される場合、遂行のためにプロセッサ1004へと命令を提供することに関与する任意の媒体に言及する。このような媒体は、多くの形態をとり得る(不揮発性媒体、揮発性媒体、および伝送媒体が挙げられるが、これらに限定されない)。不揮発性媒体の例としては、光学ディスク、ソリッドステートディスク、磁気ディスク(例えば、格納デバイス1010)が挙げられ得るが、これらに限定されない。揮発性媒体の例としては、動的メモリ(例えば、メモリ1006)が挙げられ得るが、これらに限定されない。伝送媒体の例としては、同軸ケーブル、銅線、および光ファイバー(バス1002を含むワイヤを含む)が挙げられ得るが、これらに限定されない。
コンピューター可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、CD−ROM、任意の他の光学媒体、パンチカード、紙巻きテープ、穴のパターンを有する任意の他の物理的媒体、RAM、PROM、およびEPROM、FLASH−EPROM、任意の他のメモリチップもしくはカートリッジ、またはコンピューターが読み取り得る任意の他の有形媒体が挙げられる。
コンピューター可読媒体に加えて、命令またはデータは、遂行のためにコンピューターシステム1000のプロセッサ1004に1またはこれより多くの命令のシーケンスを提供する、通信装置またはシステムの中に含まれる伝送媒体上のシグナルとして提供され得る。例えば、通信装置は、命令およびデータを示すシグナルを有する送受信装置を含み得る。上記命令およびデータは、1またはこれより多くのプロセッサに、本明細書の開示の中に概説される機能を実行させるように構成される。データ通信の伝送接続の代表例としては、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ通信、NFC接続などが挙げられ得るが、これらに限定されない。
本明細書で記載される方法論のフローチャート、図表および付随する開示が、独立型デバイスとしての、または共有コンピューター処理資源(例えば、クラウドコンピューティングネットワーク)の分散型ネットワーク上のコンピューターシステム1000を使用して実行され得ることは、認識されるべきである。
実験結果
本明細書で開示される改善されたシステムおよび方法を、倍数性分類の全体的な正確性における改善を定量するために、胚における染色体異常を識別する従来のアプローチに対して比較した。
図17は、本明細書で開示される改善されたシステムおよび方法(PGTai)を、従来の主観的呼び出し方法(ILLUMINA(登録商標)が提供するBLUEFUSE(登録商標)ソフトウェア)に対して比較する場合に、種々の倍数性分類における正味の変化を示すグラフである。6ヶ月の期間をかけて、およそ20,000個の胚を分析し、本明細書で記載されるシステムおよび方法(すなわち、PGTai)で分類した。その分類率を、従来の主観的手段(すなわち、BLUEFUSE(登録商標))によって解釈された胚のコントロール集団と比較した。次いで、分類率を、従来の手段による分類率に対して本明細書で開示される新たなシステムおよび方法によって達成される全体的な分類率を注記して、相対的な比較によって評価した。例えば、本明細書で開示される新たなシステムおよび方法は、胚のうちの46%が正倍数性として分類することを示した一方で、従来の方法論は、同じ供給源集団が従来の主観的解釈によって41% 正倍数性を生じたことを示す場合、これは、+5%として示される。先に記載されるように、主観的解釈は、特に、軽減されないノイズの存在下では、不正確になりやすい。具体的には、ノイズの存在、または異常に低いシグナル−対−ノイズ比は、過大解釈を生じる。この状況では、過大解釈は、偽陽性カテゴリー分けによって表される。胚の遺伝学において、一例として、これは、モザイクとして解釈されている真の正倍数性としてとして表され得るか、または異数性として解釈されている真のモザイクを表され得る。図17に示されるように、合計およそ40,000個の胚(本明細書で開示されるシステムおよび方法によって20,000個、従来の主題の方法によって20,000個)を分析した場合、異数性およびモザイク率における本質的な減少が観察された一方で、正倍数性分類率における本質的な増大が観察された。データ分析の方法が異なるのみで、その材料を同じ研究室において処理し、同じ臨床施設から得られたことを考慮すれば、これらの結果は、本明細書で記載される改善されたノイズ除去プロセスが、ノイズの過大解釈に起因する不正確な呼び出しを低減することを示した。
本明細書で記載される方法論は、適用に依存して、種々の手段によって実行され得る。例えば、これらの方法論は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの任意の他の組み合わせにおいて実行され得る。ハードウェア実行に関しては、処理装置は、1またはこれより多くの特定用途向け集積回路(ASICs)、デジタルシグナルプロセッサ(DSPs)、デジタルシグナル処理デバイス(DSPDs)、プログラマブルロジックデバイス(PLDs)、フィールドプログラマブルゲートアレイ(FPGAs)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で記載される機能を行うように設計された他の電子ユニット、またはこれらの組み合わせで実行され得る。
種々の実施形態において、本教示の方法は、ファームウェアおよび/またはソフトウェアプログラムならびに従来のプログラミング言語(例えば、C、C++、Pythonなど)で書かれたアプリケーションとして実行され得る。ファームウェアおよび/またはソフトウェアとして実行される場合、本明細書で記載される実施形態は、プログラムが、コンピューターに上記で記載される方法を行わせるために格納される一時的でないコンピューター可読媒体上で実行され得る。本明細書で記載される種々のエンジンが、コンピューターシステム(例えば、コンピューターシステム1000)上で提供され得、それによって、プロセッサ1004が、メモリ構成要素1006/1008/1010および入力デバイス1014によって提供されるユーザー入力のうちのいずれか1つ、またはこれらの組み合わせによって提供される命令に従って、これらのエンジンによって提供される分析および決定を遂行することは、理解されるべきである。
本教示は、種々の実施形態とともに記載されるが、本教示がこのような実施形態に限定されることは意図されない。それどころか、本教示は、当業者によって認識されるように、種々の変更、改変、および均等物を包含する。
種々の実施形態を記載するにあたって、本明細書は、工程の特定の順として、方法および/またはプロセスを示していることがある。しかし、上記方法またはプロセスが、本明細書で示される工程の特定の順序に依拠しない程度に、上記方法またはプロセスは、記載される工程の特定の順に限定されるべきでない。当業者が認識するように、工程の他の順も可能であり得る。従って、本明細書で示される工程の特定の順序は、請求項に対する限定として解釈されるべきではない。さらに、上記方法またはプロセスに関する請求項は、それらの工程を記載される順序で行うことに限定されるべきではなく、当業者は、その順が変動し得、かつ種々の実施形態の趣旨および範囲内になおあり得ることを容易に認識し得る。

種々の実施形態を記載するにあたって、本明細書は、工程の特定の順として、方法および/またはプロセスを示していることがある。しかし、上記方法またはプロセスが、本明細書で示される工程の特定の順序に依拠しない程度に、上記方法またはプロセスは、記載される工程の特定の順に限定されるべきでない。当業者が認識するように、工程の他の順も可能であり得る。従って、本明細書で示される工程の特定の順序は、請求項に対する限定として解釈されるべきではない。さらに、上記方法またはプロセスに関する請求項は、それらの工程を記載される順序で行うことに限定されるべきではなく、当業者は、その順が変動し得、かつ種々の実施形態の趣旨および範囲内になおあり得ることを容易に認識し得る。
本発明は、例えば、以下の項目を提供する。
(項目1)
胚における染色体異常を識別するための方法であって、前記方法は、
胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程;
前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程;
前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程;
エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程;および
前記参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別する工程、
を包含する方法。
(項目2)
前記ノイズ除去したサンプルゲノム配列情報データセットからカリオグラムまたは分子カリオタイプを生成する工程、
をさらに包含する、項目1に記載の方法。
(項目3)
遺伝子座効果に関する前記サンプルゲノム配列情報を正規化する工程は、
ビンサイズを設定すること;
前記サンプルゲノム配列情報および前記ベースラインゲノム配列情報を、前記ビンサイズに基づいて複数のビンにセグメント化すること;
多くのゲノム配列リードを、前記複数のサンプルゲノム配列情報ビンの各々に対して整列される前記サンプルゲノム配列情報から決定して、前記複数のサンプルゲノム配列情報ビンの各々に関するサンプルビンスコアを生成すること;
多くのゲノム配列リードを、前記複数のベースラインゲノム配列情報ビンの各々に対して整列される前記ベースラインゲノム配列情報から決定して、前記複数のベースラインゲノム配列情報ビンの各々に関するベースラインビンスコアを生成すること;
前記サンプルビンスコアを前記ベースラインビンスコアに対して正規化すること;ならびに
正規化したサンプルゲノム配列情報データセットを生成すること、
をさらに包含する、項目1に記載の方法。
(項目4)
正倍数体胚から得た複数のベースラインゲノム配列情報データセットを受容する工程;
前記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを決定する工程;
ベースラインゲノム配列情報データセットのサブセットを、前記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを用いて、前記複数のベースラインゲノム配列情報データセットから選択する工程;ならびに
ベースラインゲノム配列情報データセットの前記選択したサブセットにおいてビンスコアのメジアン値を決定することによって、前記ベースラインビンスコアを生成する工程、
をさらに包含する、項目3に記載の方法。
(項目5)
前記複数のベースラインゲノム配列情報データセットの各々に関する類似性値を計算する工程であって、ここで前記類似性値は、各ベースラインゲノム配列情報データセットが、前記サンプルゲノム配列情報にどの程度類似するかの尺度である、工程、
をさらに包含する、項目4に記載の方法。
(項目6)
前記類似性値は、ユークリッド距離分析を使用して決定される、項目4に記載の方法。
(項目7)
前記類似性値は、マハラノビス距離分析を使用して決定される、項目4に記載の方法。
(項目8)
前記類似性値は、前記ベースラインゲノム配列情報データセットと前記サンプルゲノム配列情報との間のパーセント類似性である、項目4に記載の方法。
(項目9)
サンプリング効果に関して前記サンプルゲノム配列情報を補正することは、
前記1種またはこれより多くの補正因子を、局所的に重み付けした散布図平滑化回帰分析を使用して計算すること、
をさらに包含する、項目1に記載の方法。
(項目10)
前記エラー要因は、GC含量関連である、項目1に記載の方法。
(項目11)
前記エラー要因は、増幅バイアス関連である、項目1に記載の方法。
(項目12)
前記エラー要因は、二次構造関連である、項目1に記載の方法。
(項目13)
前記エラー要因は、ヌクレオソーム密度関連である、項目1に記載の方法。
(項目14)
前記エラー要因は、miRNA停止関連である、項目1に記載の方法。
(項目15)
前記エラー要因は、遺伝子発現関連である、項目1に記載の方法。
(項目16)
胚における染色体異常を識別するためのシステムであって、前記システムは、
胚から得たサンプルゲノム配列情報を格納するように構成されたデータ格納ユニット;
以下:
前記サンプルゲノム配列情報を前記データストレージから受容し、前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成されたデータノイズ除去エンジン、および
前記ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成された解釈エンジン、
を含む、前記データ格納ユニットに通信可能に接続されたコンピューティングデバイス;ならびに
前記コンピューティングデバイスに通信可能に接続されかつ前記識別したコピー数変動を含む報告書を表示するように構成されたディスプレイ、
を含む、システム。
(項目17)
前記エラー要因は、GC含量関連である、項目16に記載のシステム。
(項目18)
前記エラー要因は、増幅バイアス関電である、項目16に記載のシステム。
(項目19)
前記エラー要因は、二次構造関連である、項目16に記載のシステム。
(項目20)
前記エラー要因は、ヌクレオソーム密度関連である、項目16に記載のシステム。
(項目21)
前記エラー要因は、miRNA停止関連である、項目16に記載のシステム。
(項目22)
前記エラー要因は、遺伝子発現関連である、項目16に記載のシステム。
(項目23)
前記コンピューティングデバイスは、
前記ノイズ除去したサンプルゲノム配列情報データセットを分析して、前記胚の性別異数性状態を分類するために、訓練済みニューラルネットワークを利用するように構成された性別異数性識別エンジン、
をさらに含む、項目16に記載のシステム。
(項目24)
胚における性別異数性を識別するための方法であって、前記方法は、
胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程;
前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程;
前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程;
エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程;ならびに
訓練済みニューラルネットワークを利用して、前記ノイズ除去したサンプルゲノム配列情報データセットを分析し、前記胚の性別異数性状態を分類する工程、
を包含する方法。
(項目25)
複数の胚から得たノイズ除去したサンプルゲノム情報サンプルゲノム情報データセットを、既知の性別異数性分類とともに受容する工程;および
ニューラルネットワークを、前記ノイズ除去したサンプルゲノム情報データセットで更新して、前記訓練済みニューラルネットワークを生成する工程、
をさらに包含する、項目24に記載の方法。
(項目26)
前記訓練済みニューラルネットワークは、
入力層;
4つのノードを含む第1の隠れ層;
2つのノードを含む第2の隠れ層;および
異なる性別異数性分類に対応する複数のノードを有する出力層、
から構成される、項目24に記載の方法。
(項目27)
前記ニューラルネットワークは、フィードフォワードニューラルネットワークアーキテクチャを有する、項目25に記載の方法。
(項目28)
バックプロパゲーション技術を適用して、前記ニューラルネットワークを訓練する工程をさらに包含する、項目25に記載の方法。

Claims (28)

  1. 胚における染色体異常を識別するための方法であって、前記方法は、
    胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程;
    前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程;
    前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程;
    エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程;および
    前記参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別する工程、
    を包含する方法。
  2. 前記ノイズ除去したサンプルゲノム配列情報データセットからカリオグラムまたは分子カリオタイプを生成する工程、
    をさらに包含する、請求項1に記載の方法。
  3. 遺伝子座効果に関する前記サンプルゲノム配列情報を正規化する工程は、
    ビンサイズを設定すること;
    前記サンプルゲノム配列情報および前記ベースラインゲノム配列情報を、前記ビンサイズに基づいて複数のビンにセグメント化すること;
    多くのゲノム配列リードを、前記複数のサンプルゲノム配列情報ビンの各々に対して整列される前記サンプルゲノム配列情報から決定して、前記複数のサンプルゲノム配列情報ビンの各々に関するサンプルビンスコアを生成すること;
    多くのゲノム配列リードを、前記複数のベースラインゲノム配列情報ビンの各々に対して整列される前記ベースラインゲノム配列情報から決定して、前記複数のベースラインゲノム配列情報ビンの各々に関するベースラインビンスコアを生成すること;
    前記サンプルビンスコアを前記ベースラインビンスコアに対して正規化すること;ならびに
    正規化したサンプルゲノム配列情報データセットを生成すること、
    をさらに包含する、請求項1に記載の方法。
  4. 正倍数体胚から得た複数のベースラインゲノム配列情報データセットを受容する工程;
    前記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを決定する工程;
    ベースラインゲノム配列情報データセットのサブセットを、前記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを用いて、前記複数のベースラインゲノム配列情報データセットから選択する工程;ならびに
    ベースラインゲノム配列情報データセットの前記選択したサブセットにおいてビンスコアのメジアン値を決定することによって、前記ベースラインビンスコアを生成する工程、
    をさらに包含する、請求項3に記載の方法。
  5. 前記複数のベースラインゲノム配列情報データセットの各々に関する類似性値を計算する工程であって、ここで前記類似性値は、各ベースラインゲノム配列情報データセットが、前記サンプルゲノム配列情報にどの程度類似するかの尺度である、工程、
    をさらに包含する、請求項4に記載の方法。
  6. 前記類似性値は、ユークリッド距離分析を使用して決定される、請求項4に記載の方法。
  7. 前記類似性値は、マハラノビス距離分析を使用して決定される、請求項4に記載の方法。
  8. 前記類似性値は、前記ベースラインゲノム配列情報データセットと前記サンプルゲノム配列情報との間のパーセント類似性である、請求項4に記載の方法。
  9. サンプリング効果に関して前記サンプルゲノム配列情報を補正することは、
    前記1種またはこれより多くの補正因子を、局所的に重み付けした散布図平滑化回帰分析を使用して計算すること、
    をさらに包含する、請求項1に記載の方法。
  10. 前記エラー要因は、GC含量関連である、請求項1に記載の方法。
  11. 前記エラー要因は、増幅バイアス関連である、請求項1に記載の方法。
  12. 前記エラー要因は、二次構造関連である、請求項1に記載の方法。
  13. 前記エラー要因は、ヌクレオソーム密度関連である、請求項1に記載の方法。
  14. 前記エラー要因は、miRNA停止関連である、請求項1に記載の方法。
  15. 前記エラー要因は、遺伝子発現関連である、請求項1に記載の方法。
  16. 胚における染色体異常を識別するためのシステムであって、前記システムは、
    胚から得たサンプルゲノム配列情報を格納するように構成されたデータ格納ユニット;
    以下:
    前記サンプルゲノム配列情報を前記データストレージから受容し、前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成されたデータノイズ除去エンジン、および
    前記ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成された解釈エンジン、
    を含む、前記データ格納ユニットに通信可能に接続されたコンピューティングデバイス;ならびに
    前記コンピューティングデバイスに通信可能に接続されかつ前記識別したコピー数変動を含む報告書を表示するように構成されたディスプレイ、
    を含む、システム。
  17. 前記エラー要因は、GC含量関連である、請求項16に記載のシステム。
  18. 前記エラー要因は、増幅バイアス関電である、請求項16に記載のシステム。
  19. 前記エラー要因は、二次構造関連である、請求項16に記載のシステム。
  20. 前記エラー要因は、ヌクレオソーム密度関連である、請求項16に記載のシステム。
  21. 前記エラー要因は、miRNA停止関連である、請求項16に記載のシステム。
  22. 前記エラー要因は、遺伝子発現関連である、請求項16に記載のシステム。
  23. 前記コンピューティングデバイスは、
    前記ノイズ除去したサンプルゲノム配列情報データセットを分析して、前記胚の性別異数性状態を分類するために、訓練済みニューラルネットワークを利用するように構成された性別異数性識別エンジン、
    をさらに含む、請求項16に記載のシステム。
  24. 胚における性別異数性を識別するための方法であって、前記方法は、
    胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程;
    前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程;
    前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程;
    エラー要因の回帰分析に由来する1種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程;ならびに
    訓練済みニューラルネットワークを利用して、前記ノイズ除去したサンプルゲノム配列情報データセットを分析し、前記胚の性別異数性状態を分類する工程、
    を包含する方法。
  25. 複数の胚から得たノイズ除去したサンプルゲノム情報サンプルゲノム情報データセットを、既知の性別異数性分類とともに受容する工程;および
    ニューラルネットワークを、前記ノイズ除去したサンプルゲノム情報データセットで更新して、前記訓練済みニューラルネットワークを生成する工程、
    をさらに包含する、請求項24に記載の方法。
  26. 前記訓練済みニューラルネットワークは、
    入力層;
    4つのノードを含む第1の隠れ層;
    2つのノードを含む第2の隠れ層;および
    異なる性別異数性分類に対応する複数のノードを有する出力層、
    から構成される、請求項24に記載の方法。
  27. 前記ニューラルネットワークは、フィードフォワードニューラルネットワークアーキテクチャを有する、請求項25に記載の方法。
  28. バックプロパゲーション技術を適用して、前記ニューラルネットワークを訓練する工程をさらに包含する、請求項25に記載の方法。

JP2021518537A 2018-10-05 2019-10-07 胚における染色体異常を識別するためのシステムおよび方法 Pending JP2022502786A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862742211P 2018-10-05 2018-10-05
US62/742,211 2018-10-05
PCT/US2019/055071 WO2020073058A1 (en) 2018-10-05 2019-10-07 Systems and methods for identifying chromosomal abnormalities in an embryo

Publications (1)

Publication Number Publication Date
JP2022502786A true JP2022502786A (ja) 2022-01-11

Family

ID=68343505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518537A Pending JP2022502786A (ja) 2018-10-05 2019-10-07 胚における染色体異常を識別するためのシステムおよび方法

Country Status (9)

Country Link
US (1) US20200111573A1 (ja)
EP (1) EP3861551A1 (ja)
JP (1) JP2022502786A (ja)
KR (1) KR20210068554A (ja)
CN (1) CN113228191A (ja)
AU (1) AU2019356033A1 (ja)
CA (1) CA3115273C (ja)
SG (1) SG11202103375SA (ja)
WO (1) WO2020073058A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020257719A1 (en) 2019-06-21 2020-12-24 Coopersurgical, Inc. Systems and methods for determining genome ploidy
AU2020297585A1 (en) 2019-06-21 2022-01-20 Coopersurgical, Inc. Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
WO2020257709A1 (en) 2019-06-21 2020-12-24 Coopersurgical, Inc. Systems and methods for determining pattern of inheritance in embryos
JP7099759B1 (ja) * 2021-03-08 2022-07-12 Varinos株式会社 ゲノム配列上のコピー数のバリアントの区切り点の候補の機械的検出
CN115064210B (zh) * 2022-07-27 2022-11-18 北京大学第三医院(北京大学第三临床医学院) 一种鉴定二倍体胚胎细胞中染色体交叉互换位置的方法及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130304392A1 (en) * 2013-01-25 2013-11-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20180032671A1 (en) * 2016-07-27 2018-02-01 Sequenom, Inc. Genetic Copy Number Alteration Classifications
US20180195123A1 (en) * 2013-01-23 2018-07-12 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2003214B1 (en) 2005-02-01 2013-04-10 AB Advanced Genetic Analysis Corporation Reagents, methods, and libraries for bead-based sequencing
US9367663B2 (en) * 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180195123A1 (en) * 2013-01-23 2018-07-12 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos
US20130304392A1 (en) * 2013-01-25 2013-11-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20180032671A1 (en) * 2016-07-27 2018-02-01 Sequenom, Inc. Genetic Copy Number Alteration Classifications

Also Published As

Publication number Publication date
WO2020073058A1 (en) 2020-04-09
CN113228191A (zh) 2021-08-06
AU2019356033A1 (en) 2021-05-27
SG11202103375SA (en) 2021-04-29
KR20210068554A (ko) 2021-06-09
CA3115273A1 (en) 2020-04-09
US20200111573A1 (en) 2020-04-09
CA3115273C (en) 2023-08-08
EP3861551A1 (en) 2021-08-11

Similar Documents

Publication Publication Date Title
AU2021290303B2 (en) Semi-supervised learning for training an ensemble of deep convolutional neural networks
CA3115273C (en) Systems and methods for identifying chromosomal abnormalities in an embryo
US20210062256A1 (en) Systems and methods for non-invasive preimplantation genetic diagnosis
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
US20200399701A1 (en) Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
US20220076784A1 (en) Systems and methods for identifying feature linkages in multi-genomic feature data from single-cell partitions
JP7446343B2 (ja) ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法
US20200105374A1 (en) Mixture model for targeted sequencing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210520

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220729

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221006

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20221006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230522

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231213