JP6718885B2 - コピー数多型検出のための方法及びシステム - Google Patents

コピー数多型検出のための方法及びシステム Download PDF

Info

Publication number
JP6718885B2
JP6718885B2 JP2017559843A JP2017559843A JP6718885B2 JP 6718885 B2 JP6718885 B2 JP 6718885B2 JP 2017559843 A JP2017559843 A JP 2017559843A JP 2017559843 A JP2017559843 A JP 2017559843A JP 6718885 B2 JP6718885 B2 JP 6718885B2
Authority
JP
Japan
Prior art keywords
coverage
calling
sample
coverage data
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017559843A
Other languages
English (en)
Other versions
JP2018523198A (ja
Inventor
リード、ジェフリー
ハベガー、ルーカス
パッカー、ジョナサン
マックスウェル、エバン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2018523198A publication Critical patent/JP2018523198A/ja
Application granted granted Critical
Publication of JP6718885B2 publication Critical patent/JP6718885B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明はコピー数多型検出のための方法及びシステムに関する。
ゲノム配列決定は、メンデル遺伝病の遺伝的根拠を発見するのに有効な手段である。ゲノム配列の解析は、コピー数多型(CNV)の存在(例えば、個体の遺伝子型における特定遺伝子のコピー数)を明らかにしてきた。CNVは、ヒトの疾患及び/又は薬物反応において重要な役割を持つことがある。
しかしながら、ゲノム配列データ(例えば、エクソーム配列データ)からCNVをコールすることは、やりがいはあるが難しい課題である。現在の解決法は、CNVをヒト配列決定の読み深度から検出するが、数万又は数十万程度のエクソームの大集団研究には適していない。それらの制限には、中でも特に、自動化された多型コーリングパイプラインに統合するのが難しいこと、及び一般的な多型を検出するのに適していないことが挙げられる。本開示では、これらの欠点及び他の欠点に対処する。
以下の一般的な説明及び以下の詳細な説明はどちらも具体例であって、例示だけを目的としており、本発明の範囲を限定するものではないことを理解されたい。コピー数多型を決定するための方法及びシステムが開示される。例示的な方法は、サンプル分類技術を適用して基準被覆率データを選択することと、複数のゲノム領域を含むサンプル被覆率データを正規化することと、選択された基準被覆率データに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることと、を含むことができる。例示的な方法は、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて隠れマルコフモデル(HMM)により1つ又は2つ以上のコピー数多型(CNV)を同定することを含むことができる。例示的な方法は、1つ又は2つ以上のコピー数多型を出力することを含むことができる。
一態様では、別の例示的な方法は、複数のゲノム領域を含むサンプル被覆率データを提供することと、基準被覆率データの表示を受信することと、を含むことができる。基準被覆率データは、サンプル分類技術に基づいて選択され得る。方法は、サンプル被覆率データに適用する1つ又は2つ以上のフィルタを選択してサンプル被覆率データを正規化することと、基準被覆率データに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることを要求することと、を含むことができる。方法は、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて隠れマルコフモデル(HMM)により1つ又は2つ以上のコピー数多型を同定することを要求することを含むことができる。方法は、1つ又は2つ以上のコピー数多型の表示を受信することを更に含むことができる。
一態様では、別の例示的な方法は、複数のゲノム領域を含むサンプル被覆率データを受信することと、サンプル被覆率データに関する1つ又は2つ以上の評価指標を取得することと、サンプル被覆率データ及び基準被覆率データにサンプル分類技術を適用して基準被覆率データのサブセットを選択することと、複数のゲノム領域を含むサンプル被覆率データを正規化することと、基準被覆率データのサブセットに基づいて、正規化されたサンプル被覆率データに混合分布モデルを当てはめることと、を含むことができる。方法は、正
規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて隠れマルコフモデル(HMM)により1つ又は2つ以上のコピー数多型を同定することを含むことができる。方法は、1つ又は2つ以上のコピー数多型を出力することを含むことができる。
更なる利点は、以下の説明に部分的に記載されるか、又は実施により理解され得る。利点は、添付の「特許請求の範囲」で特に指摘される要素及び組み合わせを用いて実現され達成される。
添付の図面は、本明細書に組み入れられ、その一部を構成するものであり、実施形態を説明と共に例示し、方法及びシステムの原理を説明する。
例示のCNVコーリングパイプラインを示しているフローチャート。 コピー数多型を決定するための例示的な方法を示しているフローチャート。 GC含量と被覆率との関係を示しているグラフ。 様々なエクソンの正規化された被覆率を示しているグラフ。 コピー数多型を評価するための別の例示的な方法を示しているフローチャート。 コピー数多型を評価するための更に別の例示的な方法を示しているフローチャート。 開示の方法を実行するための例示的な動作環境を示しているブロック図。 CLAMMS及び他のアルゴリズムのRAM使用量を比較するグラフ。 CEPH家系に対するCNVコールの性能評価指標を示している表。 PennCNV至適基準と比較したCLAMMS及びXHMMのCNVコール。 希少CNVのTaqMan検証を示している表。 一般CNVのTaqMan検証を示している表。 LILRA3一般多型座に対するCLAMMS及びTaqManのコピー数予測を比較しているグラフ。 LILRA3一般多型座に対するCLAMMS及びTaqManのコピー数予測を比較しているグラフ。 例示的な出力を示す表。
本発明の方法及びシステムを開示及び説明する前に、それらが特定の方法、特定の構成要素、又は具体的な実装によって制限されるものではないことを理解されたい。また、本明細書で使用される用語は、具体的な実施形態の説明のみを目的としており、何らかの制限を意図するものではないことも理解されたい。
本明細書及び添付の特許請求の範囲で使用される場合、単数形の「a」、「an」、及び「the」は、文脈から単数であることが明確に読み取れる場合を除き、対象の複数形も含まれるものとする。本明細書に記載される範囲は、「約」の特定値〜別の「約」の特定値、「約」の特定値〜、又は〜別の「約」の特定値の形式で表現され得る。このような範囲が表現された場合、別の実施形態は、その特定値〜その別の特定値、その特定値〜、又は〜その別の特定値の範囲を含む。同様に、先行する「約」によって値が近似の形式で表現された場合、その特定値により別の実施形態が形成されることは理解されるであろう。更に、各範囲の境界点はどちらももう一方の境界点との関係において重要であり、また互いに独立していることも理解されるであろう。
「任意追加の」又は「任意追加的に」は、その後に記述されるイベント又は状況が発生してもしなくてもよいこと、説明に前述のイベント又は状況が発生する事例及び発生しない事例が含まれることを意味する。
本明細書に記載の説明及び請求項の全体を通して、用語「含む、備える」及びその変形は、「含むがこれらに限定されない」を意味し、例えば、他の構成要素、整数、工程などの除外を意図するものではない。「例示的な〜」は「〜の例」を意味し、好ましい又は理想的な実施形態を示すことを意図するものではない。「〜など」は、説明目的で使用され、限定的意味で使用されることはない。
開示の方法及び組成物が、変化し得ると記述されている特定の方法論、手順、及び試薬に制限されるものではないことは、理解される。また、本明細書で使用される用語は、具体的な実施形態の説明のみを目的としており、添付の特許請求の範囲によってのみ制限される本発明の方法及びシステムの範囲を制限することを意図するものではないことも理解されたい。
別途定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、開示の方法及び組成物が属する当業者によって一般に理解される意味と同じ意味を有する。本発明の方法及び組成物の実施又は試験では、本明細書に記載の方法及び材料に類似、又は等価の任意の方法及び材料を使用できるが、特に有用な方法、デバイス、及び材料は本明細書に記載の通りである。本明細書に引用される出版物及びその引用によって説明される材料は、これによって本明細書に参照により明確に組み込まれる。先願発明を理由として本発明がかかる開示を先行する権利がないことを承認するものとして、本明細書が解釈されるべきではない。いかなる参照も先行技術を構成するものと承認されることはない。参照文献の議論はそれらの著者が主張する内容を述べるものであり、出願者は引用した文献の正確さ及び適切さに異議を申し立てる権利を留保する。本明細書では複数の出版物が参照されるが、かかる参照は、これらの文献のいずれかが当該技術分野における共通の一般知識の一部を形成することの承認にはならないことは明確に理解されるであろう。
開示の方法及びシステムを実行するために使用することができる構成要素を開示する。これら及び他の構成要素は本明細書で開示され、これらの構成要素の組み合わせ、サブセット、相互作用、グループなどが開示されるとき、これらの様々な個別及び集合的な組み合わせ及び順列への具体的な参照は明示的に開示されなくてもよいが、それぞれが全ての方法及びシステムに関して本明細書で具体的に企図され、記載されることは理解される。これは、開示の方法の工程を含むがこれらに限定されない、本願のあらゆる面に適用される。したがって、実行することができる多様な追加工程が存在する場合、これらの追加工程はそれぞれ、開示の方法の任意の具体的な実施形態又は実施形態の組み合わせで実行できることは理解される。
本発明の方法及びシステムは、本明細書の以下に記載される好ましい実施形態及び実施例の詳細な説明、並びに図面及びそれらの前後の説明を参照することによって更に容易に理解され得る。
当業者なら理解するように、方法及びシステムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェアの態様とハードウェアの態様を組み合わせた実施形態の形態を取り得る。更に、方法及びシステムは、記憶媒体内に具体化される、コンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品(例えば、コンピュータソフトウェア)の形態を取り得る。より詳細には、本発明の方法及びシステムは、ウェブで実装されたコンピュータソフトウェアの形態を取り得る。ハードディスク、CD−ROM、光学式記憶デバイス、又は磁気記憶デバイス
を含めて、任意の好適なコンピュータ可読記憶媒体が利用されてよい。
方法及びシステムの実施形態が、方法、システム、装置、及びコンピュータプログラム製品のブロック図及びフローチャート図を参照して以下に説明される。ブロック図及びフローチャート図の各ブロック、並びにブロック図中及びフローチャート図中のブロックの組み合わせはそれぞれ、コンピュータプログラム命令によって実装され得ることは理解されるであろう。これらのコンピュータプログラム命令は、マシンを作り出すように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置の上にロードされてよく、その結果、コンピュータ又は他のプログラム可能なデータ処理装置の上で実行する命令は、フローチャートのブロックで指定される機能を実装するための手段をもたらす。
これらのコンピュータプログラム命令はまた、コンピュータ又は他のプログラム可能なデータ処理装置に特定の方法で機能するように命令することができるコンピュータ可読メモリに保存されてもよく、その結果、コンピュータ可読メモリに保存された命令は、フローチャートのブロックで指定される機能を実装するためのコンピュータ可読命令を含む製造物品を作り出す。コンピュータプログラム命令はまた、コンピュータで実装されたプロセスを作り出す一連の動作工程がコンピュータ又は他のプログラム可能な装置の上で実行されるように、コンピュータ又は他のプログラム可能なデータ処理装置の上にロードされてもよく、その結果、コンピュータ又は他のプログラム可能な装置の上で実行する命令は、フローチャートのブロックで指定される機能を実装するための工程を提供する。
したがって、ブロック図及びフローチャート図のブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するための工程の組み合わせ、及び指定された機能を実行するためのプログラム命令手段に対応する。また、ブロック図及びフローチャート図の各ブロック、並びにブロック図中及びフローチャート図中のブロックの組み合わせは、指定された機能若しくは工程を実行するハードウェアベースの専用コンピュータシステム、又は専用ハードウェア及びコンピュータ命令の組み合わせによって実装され得ることも理解されるであろう。
本発明の方法及びシステムは、CNV検出(例えば、同定、予測、評価)を対象とする。本発明の方法及びシステムのいくつかの態様は、「格子整列混合分布モデルを使用したコピー数評価(Copy number estimation using Lattice-aligned Mixture Models )(CLAMMS)」と称され得る。CNV分断点はエクソームの外側にあることが多いため、全エクソーム配列決定(WES)データでコピー数多型を検出することは、やりがいはあるが難しい課題である。本発明の方法及びシステムは、CNV内の読み深度を利用することができる。このような読み深度は、コピー数状態に線形的に相関され得る。しかしながら、被覆率の深度は、組織的バイアス(例えば、多くの場合、配列のGC含量に関連している)と統計的不安定性(例えば、入力されたDNAの質の変動によって悪化する)の両方の影響を受けやすい。本発明の方法及びシステムは、被覆率データを正規化して組織的バイアスを補正し、2倍体コピー数の場合の期待される被覆率プロファイルの特性を明らかにすることができ、その結果、真のCNVをノイズと区別することができる。このような正規化は、例えば、各サンプルの被覆率データを、同様に配列決定されたサンプルの「基準パネル」からのデータ(例えば、基準被覆率データ)と比較することを含むことができる。サンプルの調製手順及び配列決定手順におけるばらつきは、「バッチ効果」と一般に称される追加の被覆率バイアスをもたらし得る。
一態様では、本発明の方法及びシステムは、混合分布モデルと隠れマルコフモデル(HMM)の両方の使用に基づいてCNVを同定することができる。例えば、混合分布モデルは、k最近傍探索アルゴリズムなど、サンプル分類アルゴリズムを使用して決定される基
準被覆率データに基づいて当てはめることができる。混合分布モデルからの情報は、CNVを同定するためにHMMに入力することができる。
図1は、例示のCNVコーリングパイプラインを示しているフローチャートである。被覆率データの基準パネル(例えば、1つ又は2つ以上のゲノム獲得領域を含む基準被覆率データ)は、サンプル分類技術を使用して複数の評価指標(例えば、配列決定品質管理(QC)評価指標)に基づいてサンプル(例えば、1つ又は2つ以上のゲノム獲得領域を含むサンプル被覆率データ)ごとに選択することができる。サンプル分類技術は、類似性によってサンプルを分類するための技術(例えば、アルゴリズム)を含むことができる。使用することができるサンプル分類技術の例には、決定木、サポートベクターマシン、k最近傍探索(knn)アルゴリズム、ナイーブベイズアルゴリズム、CART(分類木及び回帰木)アルゴリズム、及び/又は同種のものが挙げられるが、これらに限定されない。例えば、kNNアルゴリズムは、k−d木データ構造を生成することを含むことができる。基準被覆率データは、サンプル被覆率データ(例えば、又はサンプル被覆率データに関連した評価指標)をk−d木構造に挿入し、所定の数の最近傍データ(例えば、10、100、1000、10000個など)を特定することによって選択することができる。基準被覆率データを選択した後、サンプルは並列に処理することができる。サンプルレベルの解析(右パネル)は、被覆率を正規化すること、被覆率分布を混合分布モデルで近似すること、及びHMMからのコールを生成することを含む。
一態様では、本発明の方法及びシステムの例示的な実装は、図1に開示されているものである。左パネルに示されるように、(例えば、サンプルセットから引き出された)基準被覆率データは、サンプル分類技術の一部として使用され得る。サンプル分類技術を例示するために、k−d木を利用するk最近傍探索アルゴリズムが使用されているが、他のサンプル分類技術(例えば、任意の適当なクラスタリング、分類、及び/又は判別アルゴリズム)が適用され得ることは理解されたい。k−d木は、k次元空間内の点に対する多次元探索木を含むことができる。例えば、基準被覆率データの複数の評価指標が、サンプル分類技術によって使用され得る。例えば、基準被覆率データの複数の評価指標が、k−d木を構築するために使用され得る。複数の評価指標は、例えば、配列決定品質管理(QC)評価指標、サンプルメタデータ、家系に基づいた値、配列類似性スコア、及び/又はサンプルレベルのばらつきを捕捉する任意の評価指標を含むことができる。例えば、配列決定QC評価指標の場合、7つのQC評価指標が使用され得る。例として、配列決定QC評価指標は、GCDROPOUT、ATDROPOUT、MEANINSERTSIZE、ONBAITVSSELECTED、PCTPFUQREADS、PCTTARGETBASES10X、PCTTARGETBASES50X、及び/又は同種のものを含むことができる。配列決定QC評価指標は、(例えば、線形変換を適用することによって)スケーリングされ、処理されて、k−d木を構築し得る。
サンプル被覆率データ用の複数の評価指標(例えば、配列決定QC評価指標)もまた、スケーリングされ、k−d木に挿入され得る。次いで、k−d木は、最近傍探索を実行してサンプル被覆率データに対する最近傍データを特定するために使用され得る。基準被覆率データ内の任意の数の最近傍データが特定され得る(例えば、10、100、1000、10000個など)。所望の数の最近傍データを使用して、選択された基準被覆率データ(例えば、基準被覆率データのサブセット)を形成することができる。本発明の方法及びシステムは、サンプルごとにカスタム基準被覆率データを選択することによってデータ不均一性に対処することができる。例として、サンプル(例えば、基準被覆率データ)間の距離評価指標は、上述の7つの配列決定QC評価指標に基づいて定義され得る。例えば、配列決定QC評価指標は、Picardなどの配列決定ツールから決定され、選択され、受信され、及び/又は同種の処理がなされ得る。それぞれの新たに配列決定されたサンプルは、この評価指標空間内でk−d木に追加され得る。CNVは、個々のサンプルのk
(例えば、100)個の最近傍データを含む選択された基準被覆率データを使用してコールされ得る。k個の最近傍データは、k−d木アルゴリズム又は他のサンプル分類技術など、任意の最近傍探索アルゴリズムを使用して見つけられ得る。
右パネルに示されるように、サンプル被覆率データ(例えば、サンプルi)は、サンプルセットから選択され得る。サンプル被覆率データは、GC増幅バイアス及び被覆率の深度の全体平均を補正するために正規化され得る。別の態様では、サンプル被覆率データはフィルタ処理され得る。例えば、サンプル被覆率データは、GC含量のレベルに基づいて、マッピング可能性スコアに基づいて、読み被覆率の中心傾向の測定値に基づいて、多コピー重複エクソーム獲得領域におけるコーリングウィンドウの発生に基づいて、及びこれらの組み合わせなどに基づいて、フィルタ処理され得る。例えば、マッピング可能性の低い領域における読み深度は、ゲノム内の配列用量を正確に表現しないことがある。
サンプル被覆率データが正規化された後、選択された基準被覆率データ(最近傍データ)は、サンプル被覆率データ内の1つ又は2つ以上の(又はそれぞれの)ゲノム(例えば、エクソーム)獲得領域に対して有限混合分布モデルを当てはめるために使用され得る。有限混合分布モデルは、2つ又は3つ以上の確率密度関数の組み合わせを含むことができる。有限混合分布モデルは、以下のものなど、1つ又は2つ以上の構成要素を含むことができる:それぞれがK個の構成要素の混合に従って分布すると仮定され、各構成要素が分布の同じパラメータ族に属するが異なるパラメータを有する、観測値に対応したN個の確率変数;それぞれがK次元のカテゴリー分布に従って分布する、各観測値の混合分布モデルの構成要素の恒等を指定しているN個の対応する確率潜在変数;それぞれが確率(0以上、1以下の実数)であり、全てを合計すると1になる、1組のK個の混合重み;それぞれが混合分布モデルの対応する構成要素のパラメータを指定する、1組のK個のパラメータ。いくつかの態様では、パラメータは、1組のパラメータを含むことができる。本発明の方法及びシステムでは、混合分布モデルの各構成要素は、特定の整数のコピー数状態に対してサンプル全体にわたって被覆率の期待される分布をモデル化することができる。ホモ接合型欠失及び性染色体を取り扱うのに適応することができる。
一態様では、有限混合分布モデルを当てはめるために、期待値最大化(EM)アルゴリズムが使用され得る。EMアルゴリズムは、欠測値又は潜在変数が存在するときに、最尤推定値を見つけるための一般的な方法である。EMアルゴリズムは、反復アルゴリズムであり得る。反復は、パラメータの現在の推定値を使用して評価された対数尤度の期待値の関数を生成することができる、期待値(E)ステップと、Eステップで見つかった期待対数尤度を最大化するパラメータを計算することができる、最大化(M)ステップとを交互に実行することができる。次いで、これらのパラメータ推定値は、次のEステップでの潜在変数の分布を決定するために使用され得る。
一態様では、CNVは、隠れマルコフモデル(HMM)を使用したサンプル被覆率データに対してコールされ得る。例えば、各領域に対する個々のサンプルの正規化された被覆率値は、HMMへの入力配列であり得る。HMMの出力確率は、訓練された(例えば、当てはめられた、適合された)混合分布モデルに基づき得る。HMMの遷移確率は、本明細書に参照により組み込まれる、XHMMなど、他のモデルによって使用されるものと同様であり得うる。混合分布モデルは、コピー数多型座を自然に取り扱うことを可能にし、HMMは、近くの異常信号が複数の小さいCNVであるよりも単一のCNVの一部である可能性が高い、事前の期待値を受け入れる。本発明の方法及びシステムは、混合分布モデル及びHMMを単一の確率モデルに統合することができる。
図2は、コピー数多型を決定するための例示的な方法200を示しているフローチャートである。一態様では、本発明の方法及びシステムは、複数のゲノム領域を含むサンプル
被覆率データを解析してCNVを検出するために構成され得る。工程202においては、基準被覆率データを選択するためにサンプル分類技術が適用され得る。例えば、サンプル分類技術は、類似性によってサンプルを分類するための技術(例えば、アルゴリズム)を含むことができる。サンプル分類技術を適用して基準被覆率データを選択することは、サンプル被覆率データに対する複数の評価指標を受信することを含むことができる。サンプル被覆率データと基準被覆率データとの間の距離評価指標は、複数の評価指標に基づいて定義され得る。基準被覆率データは、距離評価指標に基づいて(例えば、サンプルごとに)選択され得る。サンプル分類技術は、分類アルゴリズム、クラスタリングアルゴリズム、判別アルゴリズム、及び/又は同種のものを含むことができる。例えば、サンプル分類技術は、決定木、サポートベクターマシン、k最近傍探索(knn)アルゴリズム、ナイーブベイズアルゴリズム、CART(分類木及び回帰木)アルゴリズム、及び/又は同種のものを含むことができる。例えば、サンプル分類技術を適用して基準被覆率データを選択すると、方法は、基準被覆率データに関連した複数の評価指標をスケーリングすること、スケーリングされた、基準被覆率データに関連した複数の評価指標に基づいてk−d木を生成すること、サンプル被覆率データに関連した複数の評価指標をスケーリングすること、スケーリングされた、サンプル被覆率データに関連した複数の評価指標に基づいてサンプル被覆率データをk−d木に追加すること、サンプル被覆率データに対して所定の数の最近傍データを、選択された基準被覆率データとして特定すること、及び/又は同種のことを含むことができる。
基準被覆率データを選択するためのサンプル分類技術の適用は、以下に更に詳細に説明される。配列決定条件のばらつきに起因して生じる組織的被覆率バイアスは、一般に「バッチ効果」と称される。一態様では、本発明の方法及びシステムは、カスタム基準パネル(例えば、選択された基準被覆率データ)による方法を使用してバッチ効果を補正するように構成され得る。例えば、サンプルの被覆率プロファイル(高次元空間)に基づいてサンプル被覆率データを比較する代わりに、本発明の方法及びシステムは、配列決定品質管理(QC)評価指標に基づいた低次元の評価指標空間を考慮するように構成され得る。例えば、配列決定QC評価指標は、7つの配列決定QC評価指標を含むことができる。配列決定QC評価指標は、Picardなどの配列決定ツールからの配列決定QC評価指標を含むことができる。この低次元空間で作業することにより、拡張性の向上が可能になる。例えば、サンプルは、(例えば、任意の適当なインデックス作成及び/又は検索アルゴリズムを使用して)前もってインデックスを付与され得る。更なる例として、サンプルは、k最近傍探索アルゴリズムを使用して前もってインデックスを付与され得る。例えば、k最近傍探索アルゴリズムは、高速の最近傍問い合わせを可能にし、かつ、最小限の量のRAMを使用する、k−d木構造を使用することができる。
例として、例示的な多型コーリングパイプラインは、以下の通りに進行するように構成され得る。
1.ラボ情報管理システムに問い合わせを行って、サンプルごとに以下の7つのPicard配列決定品質管理評価指標を取得する:GCDROPOUT、ATDROPOUT、MEANINSERTSIZE、ONBAITVSSELECTED、PCTPFUQREADS、PCTTARGETBASES10X、及びPCTTARGETBASES50X。
2.線形変換を適用して各評価指標を範囲[0,1]にスケーリングした後(例えば、スケーリングした値=[生値−最小値]/[最大値−最小値])、各サンプルのQC評価指標ベクトルをk−d木データ構造に挿入する。
3.並列で、サンプルごとに、
(a)samtoolsを使用してBAMファイルから被覆率の深度を計算し、CLA
MMSのサンプル内正規化工程を実行する。
(b)k−d木内のサンプルの100個の最近傍データを使用してCLAMMSモデルを訓練する。
(c)これらのモデルを使用してCNVをコールする。
一態様では、より大きい値のkは、混合分布モデルパラメータの統計的推定における分散を減少させるが、バイアスを増加させ得る。デフォルトのk値は、具体的なアプリケーションに従って選択され得る。いくつかのシナリオでは、デフォルト値k=100は、最良のバイアス−分散のトレードオフをもたらし得る。k−d木がデータベースに保存される場合、パイプラインは、ネットワーク(例えば、ウェブインターフェース)経由で実行するように拡張され得る。小規模の研究など、いくつかのシナリオでは、本発明の方法及びシステムはまた、QC評価指標を計算する必要なしに使用され得る。例えば、サンプルは、サンプル対エクソンの被覆率マトリックスのPCAプロットに基づいて手動でバッチに割り当てられ得る。別個のモデルの組がバッチごとに訓練され、そのバッチ内のサンプルに対してCNVをコールするために使用され得る。
一態様では、本発明の方法及びシステムは、サンプル被覆率データの複数のゲノム領域を1つ又は2つ以上のコーリングウィンドウ(例えば、複数のコーリングウィンドウ)に分割することができる。例えば、本発明の方法及びシステムは、ゲノム(例えば、エクソーム)獲得領域を均等サイズのコーリングウィンドウに分割することができる。例えば、長さが1000bp以上のゲノム獲得領域は、500〜1000塩基対(bp)の均等サイズのコーリングウィンドウに分割され得る。本発明の方法及びシステムは、ゲノム領域を、長いエクソンに部分的に重なるCNVを検出することが可能なコーリングウィンドウに分割するように構成され得る。並外れて長いエクソンを含む遺伝子の例には、AHNAK、TTN、及びいくつかのムチンが挙げられる。一態様では、複数のゲノム領域のうち所定のサイズよりも大きい、例えば、999塩基よりも大きい、ゲノム領域のみが分割され得る。任意の他の適当な塩基数が使用され得ることに留意されたい。
一態様では、方法及びシステムは、サンプル被覆率データをフィルタ処理することを任意追加的に含むことができる。フィルタ処理することは、工程202より前に、工程202中に、及び/又は方法200の他の工程中に達成され得る。サンプル被覆率データをフィルタ処理することは、グアニン−シトシン(GC)含量のレベルに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することを含むことができる。GC含量のレベルに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのあるコーリングウィンドウを、そのコーリングウィンドウのGC含量のレベルが所定の範囲の外側にある場合に除外することを含むことができる。一態様では、本発明の方法及びシステムは、極端なグアニン−シトシン含量の(GC)含量を有するウィンドウをフィルタ処理することができる。GC増幅バイアスは、バイアスが任意の特定のGC含量レベルに対してほぼ一貫しているときに補正され得る。しかしながら、非常に低い又は高いGC含量においては、被覆率の統計的不安定性が格段に増加し、効果的に正規化することが困難になり得る。したがって、本発明の方法及びシステムは、GC比率が構成可能な(例えば、既定の)範囲又は閾値の外側にあるウィンドウをフィルタ処理することができる。例として、構成可能な範囲は、図3に示されるように、[0.3,0.7]を含むことができる。しかしながら、必要に応じて他の範囲(例えば、閾値)が利用され得ることをは理解されたい。
GC含量に基づいてフィルタ処理することの更なる説明として、図3は、GC含量と被覆率との関係を示しているグラフを示す。例えば、被覆率の変動の係数(例えば、標準偏差を平均で割った商)はy軸上に示され、GC含量はx軸上に示される。グラフは、50
個のサンプル(例えば、見やすいように不規則にずらして再配置されている点)を示す。構成可能な範囲のデフォルトの上限(例えば、GC=0.7)より上では、被覆率分散は、平均に対して非常に高くなり、被覆率に基づいたCNVコールは信頼できなくなり得る。構成可能な範囲のデフォルトの下限(例えば、GC含量=0.3)より下では、追加の問題が発生する。例えば、被覆率の分散自体が、サンプル間で大きく変化し得る。各基準パネルサンプルの被覆率値が異なる分布からの観測値であるため、この分散は、特定のウィンドウにて特定のサンプルの期待される被覆率の分散を正確に評価することを困難にする。
一態様では、配列決定された読みだけではなく、完全なDNA断片のGC含量が、断片数に影響を及ぼす。したがって、GC比率を計算するとき、ウィンドウは、平均断片サイズより少なくともわずかに長くなるように、対称的に拡張され得る。平均断片サイズは、CLAMMSの別の構成可能なパラメータであり得る。平均断片サイズはデフォルトの200bpになり得、又は他の適当な値が使用されてもよい。
サンプル被覆率データをフィルタ処理することは、複数のゲノム領域のうちのあるゲノム領域のマッピング可能性スコアに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することを含むことができる。例えば、本発明の方法及びシステムは、ウィンドウ内の各塩基を起点とするkマーの平均マッピング可能性スコア(デフォルトのk=75)が0.75未満であるコーリングウィンドウをフィルタ処理することができる。マッピング可能性スコアに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定することと、1つ又は2つ以上のコーリングウィンドウのうち、複数のゲノム領域のうちのゲノム領域を収容するコーリングウィンドウを、その複数のゲノム領域のうちのゲノム領域のマッピング可能性スコアが所定の閾値を下回る場合に除外することと、を含むことができる。複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定することは、第1の塩基がその複数のゲノム領域のうちのゲノム領域に重なるkマーの逆基準ゲノム頻度の平均を決定することを含むことができる。
別の態様では、サンプル被覆率データをフィルタ処理することは、読み被覆率の中心傾向の測定値に基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することを含むことができる。読み被覆率の中心傾向の測定値に基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウを、その1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウが、類似のGC含量を有するコーリングウィンドウの期待される被覆率値を下回る読み被覆率の中心傾向の測定値を含む場合に除外することを含むことができる。例えば、本発明の方法及びシステムは、サンプルの中央値被覆率及び/又は平均値被覆率が類似のGC含量を有するウィンドウの期待値の10%未満であるウィンドウをフィルタ処理することができる。
別の態様では、サンプル被覆率データをフィルタ処理することは、多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することを含むことができる。多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウを、その1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウが、多コピー重複が存在すると知られている領域内に発生する場合に除外することを含むことができる。例として、エクソーム獲得領域の一部(例えば、上のデフォルトを使用した12%)が、これらのフィルタを使用してコーリングプロセスから除外され得る。
図2に戻ると、工程204においては、サンプル被覆率データが正規化され得る。サンプル被覆率データは、複数のゲノム領域を含むことができる。本発明の方法及びシステムは、個々のサンプルごとにサンプル被覆率データを正規化して、GCバイアス及び被覆率の深度の全体平均を補正することができる。サンプル被覆率データを正規化することは、コーリングウィンドウwの生被覆率を決定すること、コーリングウィンドウwのGC比率を条件とする1つ又は2つ以上のコーリングウィンドウにわたってサンプル被覆率データの中央値被覆率を決定すること、及び生被覆率を中央値被覆率で割り、正規化されたサンプル被覆率データをもたらすことを含むことができる。コーリングウィンドウwのGC比率を条件とする複数のウィンドウにわたってサンプル被覆率データの中央値被覆率を決定することは、1つ若しくは2つ以上のコーリングウィンドウをGC比率によってビニングし、複数のビンをもたらすこと、複数のビンのうちの各ビンに対して中央値被覆率を決定すること、及び/又はコーリングウィンドウwに最も近い2つのビンの中央値被覆率の間の線形補間を使用して別個の可能なGC比率ごとに正規化係数を決定することを含むことができる。
サンプル被覆率データの正規化は、以下に更に詳細に説明される。例えば、条件付き中央値は、サンプルの全てのウィンドウをGC比率(例えば、[0.300,0.310]、[0.315,0.325]など)でビニングすることによって決定され(例えば、計算され、算出され)得る。例えば、複数のビンは、GC比率の値に基づいて決定され得る。複数のビンのうちの1つ又は2つ以上(又はそれぞれ)のビンは、GC比率の値の全範囲を1つ又は2つ以上の増分値(例えば、0.01)に基づいて(例えば、均等に)分割することによって決定され得る。各ビンの中央値被覆率が決定され(例えば、算出され、計算され)得る。所与のGC比率に対する正規化係数が決定され(例えば、算出され、計算され)得る。例えば、所与のGC比率に対する正規化係数は、問題のビンに最も近い2つのビンの中央値被覆率の間の線形補間を使用することによって決定され得る。一態様では、ビニング解像度(例えば、増分値のサイズ)は構成可能であり得る。評価のために十分なサンプルサイズを各ビンに提供することの必要性ときめの細かいビニングとのバランスを保つ例示的なデフォルトの解像度が決定され(例えば、選択され)得る。
図4は、様々なエクソンの正規化された被覆率を示しているグラフを示す。グラフは、(例えば、サンプル内正規化が適用された後の)遺伝子GSTT1のエクソンの観測された被覆率分布に当てはめられた混合分布モデルを示す。(例えば、見やすいように不規則にずらして再配置されている)それぞれの点は、エクソンに対するサンプルの正規化された被覆率を示す。エクソンがそれに隣接するエクソンとは独立に取り扱われると仮定した場合に、モデル及び不透明度が、最も可能性の高いコピー数と2番目に最も可能性の高いコピー数との間の尤度比に比例するものであるとして、プロット点の濃淡は、最も可能性の高いコピー数を示す。
図2に戻ると、工程206においては、混合分布モデルが、選択された基準被覆率データに基づいて、正規化されたサンプル被覆率データに当てはめられ(例えば、訓練され、修正され、適合され)得る。例えば、混合分布モデルは、選択された基準被覆率データに従って訓練され得る。選択された基準被覆率データに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることは、複数の混合分布モデル(例えば、複数のゲノム領域のそれぞれにつき1つ)を決定することを含むことができる。複数の混合分布モデルのうちの1つ又は2つ以上の(又はそれぞれの)構成要素は、対応する確率分布を含むことができる。確率分布は、特定のコピー数を条件とする期待される正規化された被覆率を表現することができる。複数の混合分布モデルは、期待値最大化アルゴリズムを使用して、正規化されたサンプル被覆率データに当てはめられ得る。例えば、複数の混合分布モデルは、1つ又は2つ以上のコーリングウィンドウのそれぞれにおいて各コピー数の尤度を決定するために、期待値最大化アルゴリズムを使用して、正規化されたサンプル被
覆率データに当てはめられ得る。選択された基準被覆率データは、期待値最大化アルゴリズムに入力され得る。
更なる説明として、本発明の方法及びシステムは、混合分布モデルを使用して、各コーリングウィンドウでの期待される(例えば、正規化された)被覆率分布の特性を明らかにすることができる。期待される被覆率分布は、コピー数状態を条件とすることができる。これらの混合分布モデルは、当てはめアルゴリズムを使用することによって当てはめられ得る。例えば、混合分布モデルは、データ分布の形状に最もよく一致するモデルパラメータを同定することによって当てはめられ得る。一態様では、当てはめアルゴリズムは、EMなど、混合分布モデルパラメータを評価するための最適化方法を含むことができる。あるいは、別個のコピー数状態を特定する、及び/又はコピー数状態にわたって被覆率データの分布をモデル化するために、教師なしクラスタリング又はサンプリングアルゴリズムが使用され得る。
例えば、当てはめアルゴリズムは、サンプルの基準パネルからの入力データ(例えば、基準被覆率データ)による期待値最大化アルゴリズム(EMアルゴリズム)を含むことができる。一態様では、EMアルゴリズムは、隠れ(例えば、潜在)モデルパラメータを当てはめるための最適化アルゴリズムを含むことができる。いくつかの実装では、当てはめアルゴリズムは、勾配降下、ニュートン−ラプソン、及び/又は同種のアルゴリズムの使用を含むことができる。混合分布モデルの構成要素は、コピー数0、1、2、及び3に対応することができる。いくつかの実装では、3を超えるコピー数は無視され得る。例えば、3を超えるコピー数によって説明され得る被覆率は、統計的なGCに関連したバイアスの結果であることがある。
一態様では、非ゼロのコピー数に対応する混合分布モデルの構成要素のうちの1つ又は2つ以上は、ガウス分布に従うように定義され得る。例えば、ガウス分布は、
の形式になり得、μは平均を示し、σは分散又は標準偏差を示す。2倍体コピーのガウス分布は、少なくとも以下の2つの自由パラメータを含むことができる:μDIP(例えば、2倍体コピーに対応する混合構成要素の平均)及びσDIP(例えば、2倍体コピーに対応する混合構成要素の標準偏差)。非2倍体コピー数kのそれぞれでは、平均は、(k/2)μDIPに等しくなるように拘束され得る(例えば、頭字語CLAMMSに含まれる用語「格子整列(lattice-aligned)」はこれに由来する)。1倍体サンプルの標
準偏差σHAPは、
σDIPに等しい値に設定され得る。ガウス近似にもかかわらず、特定のコピー数を条件とする被覆率は、平均に等しい分散を有するPoisson分布にされ得る。2を超えるコピー数に対応する構成要素の標準偏差パラメータは、σDIPに等しくなるように設定され得る。この構成により、偽陽性重複の比率の増加が回避され得る。非2倍体構成
要素のパラメータに課される拘束により、モデルは、訓練データの過剰適合を回避するように構成され得る。
一態様では、当てはめアルゴリズムは、削除された領域に対応するミスマッピングされた読みを考慮するように構成され得る。例えば、混合されたモデルの構成要素のうちの1つ又は2つ以上は、指数分布として定義され得る。ホモ接合型欠失(例えば、コピー数0)はゼロ被覆率を示し得るが、ミスマッピングされた読みは、完全に削除された領域にさえも小さいレベルの被覆率をもたらし得る。したがって、コピー数0に対応する構成要素は、指数分布として定義され得る。指数分布は、比率パラメータλを含むことができる。例えば、指数分布は、以下の形式になり得る:λe−λx。指数分布は、μDIPの6.25%又は他の適当な比率に初期に等しい平均(例えば、1/λ)で構成され得る。更なる例として、この構成要素の平均は、この初期値以下になるように拘束され得る。領域に関するミスマッピングの問題が存在しなければ、当てはめアルゴリズムの反復は平均を0に進めることができる(例えば、λ→∞)。この問題に対処するために、平均がμDIPの0.1%未満に低下すると、当てはめアルゴリズムは、指数分布を0にて質点に置き換えることができる。
要約すれば、混合分布モデルは、以下のパラメータの1つ又は2つ以上で構成され得る:μDIP及びσDIP、指数構成要素(例えば、コピー数0)の比率λ、並びに指数分布が質点に置き換えられているかどうかを示すフラグ。
一態様では、当てはめアルゴリズムは、混合モデルを当てはめるために解に対して反復的に収束するように構成され得、反復ごとにモデルとデータとの間の差が縮小する。
一態様では、当てはめアルゴリズムは、最大反復数で構成され得る。例えば、混合分布モデルは、最大反復回数(例えば、30、40、50)を使用して当てはめられ得る。いくつかのシナリオでは、当てはめアルゴリズムは、最大回数未満の反復を使用することができる。例えば、収束を早期に検出するために発見的方法が使用され得る。局所最適化手順である、EMアルゴリズムの場合、当てはめアルゴリズムが非大域的な最適条件に収束する可能性をμDIP及びσDIPの初期値が減少させ得ることを評価することができる。いくつかのシナリオでは、μDIPは、問題の領域の全てのサンプルの中央値被覆率に初期化され得る(例えば、中央値サンプルが1倍体である領域において、反復は最終的に適切な2倍体平均に到達し得る)。一態様では、σDIPは、被覆率値の中央値周りの被覆率値の中央値絶対偏差(MAD)に初期化され得、一定の係数でスケーリングされて漸近正規性を達成する(例えば、Rにおいて「mad」関数を比較する)。
全ての考慮されるコピー数状態に対して低い尤度(例えば、平均から2.5σ未満)を有するサンプルは、モデル当てはめのために外れ値としてフラグが立てられ得る。領域が外れ値サンプルを有する場合、混合分布モデルは、外れ値被覆率値が削除されて再訓練され得る。
工程208においては、1つ又は2つ以上のコピー数多型(CNV)が、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて、隠れマルコフモデル(HMM)、ベイジアンネットワーク、及び/又は他の確率モデルにより同定され(例えば、決定され、予測され、評価され)得る。例えば、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて1つ又は2つ以上のコピー数多型を隠れマルコフモデル(HMM)により同定することは、(例えば、1つ又は2つ以上のコーリングウィンドウの)各コーリングウィンドウに対する正規化されたサンプル被覆率データをHMMに入力することを含むことができる。
別の態様では、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデル
に基づいて1つ又は2つ以上のコピー数多型を隠れマルコフモデル(HMM)により同定することは、混合分布モデルに基づいてHMMの1つ又は2つ以上の出力確率を決定することを含むことができる。例えば、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)コーリングウィンドウwにて、HMM状態sが与えられ、状態sに対応するwの混合分布モデルの構成要素に基づいて、正規化された被覆率値xを観測する確率が、決定され得る。
別の態様では、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて1つ又は2つ以上のコピー数多型を隠れマルコフモデル(HMM)により同定することは、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定することを含むことができる。例えば、ビタビアルゴリズムが、複数のゲノム領域のうちのあるゲノム領域上で5’から3’の方向に実行され得る。ビタビアルゴリズムは、複数のゲノム領域のうちのそのゲノム領域の3’から5’の方向に実行され得る。(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウは、そのコーリングウィンドウに関連した複数のゲノム領域のうちのゲノム領域が5’から3’の方向及び3’から5’の方向において非2倍体の最も可能性の高い状態を有する場合に、CNVとして同定され得る。
一態様では、HMMは、モデル化されるシステムが観測されない(例えば、隠れた)状態を有するマルコフ過程であると仮定される統計的マルコフモデルを含むことができる。隠れ状態空間は、カテゴリー分布としてモデル化される、N個の可能な値のうちの1つを含むことができる。HMMは、遷移確率を含むことができる。時間tにおける隠れ変数がなり得るN個の可能な状態のそれぞれに対して、この状態から、時間t+1における隠れ変数の可能な状態のそれぞれになる遷移確率が、合計でN個の遷移確率として存在し得る。HMMはまた、特定の時間における隠れ変数の状態が与えられるとその時間における観測された変数の分布を決定する(例えば、N個の可能な状態のそれぞれに対する)出力確率を含むこともできる。
HMMへの入力は、各コーリングウィンドウにおける個々のサンプルに対する(例えば、前述のサンプル内手順からの)正規化された被覆率値であり得る。例えば、HMMの状態は、DEL(欠失)、DIP(2倍体)、DUP(重複)、及び/又は同種のものを含むことができる。いくつかのシナリオでは、コピー数0と1との区別は、DELコールが行われた後の後処理工程で行われ得る。
一態様では、HMMは、その遷移確率を入力値として含むことができる。遷移確率は、XHMMで使用されるものに基づくことができる。例えば、XHMMの遷移確率は、パラメータ1/q(例えば、CNV内の数ウィンドウの事前幾何分布の平均)を除いて、0に設定され得る(例えば、q=∞)。例えば、遷移確率は、XHMMパラメータ1/qを除いてXHMMのパラメータに類似(例えば、XHMM(非ゼロ)とおおよそ同じ)であり得、XHMMパラメータ1/qは、無限大に等しいqを設定することによって0に設定され得る。この設定の効果は、CNV内のウィンドウ数に対して事前の仮定を設定しないようにHMMを構成できることである。それどころか、HMMは、実際のゲノム距離に基づいている指数関数分布の減衰係数のみを使用するように構成され得る。一態様では、XHMMパラメータ1/qをゼロに設定することは、以下の2つの仮定をもたらす:1)DEL及びDUPは同様に確からしい分布となり、2)CNVのサイズは指数分布となる。Fromerら(2012)による「Discovery and statistical genotyping of copy−number variation from whole−exome sequencing depth.」Am J Hum Genet,91(4),597−607に記載のXHMMに関連した教示は、本明
細書に参照により明確に組み込まれる。
一態様では、HMMは、出力確率を入力値として含むことができる。出力確率は、混合分布モデルから算出され得る。例えば、コーリングウィンドウwにて、HMM状態sが与えられて、(例えば、正規化された)被覆率値xを観測する確率は、状態sに対応する、wにて訓練された混合分布モデルの構成要素によって与えられ得る。DEL状態では、コピー数0及び1の場合の確率の尤度重み付き平均が使用され得る。例えば、L(CN=1|cov)=9L(CN=0|cov)の場合、出力確率は、0.9P(cov|CN=1)+0.1P(cov|CN=0)であり得る。
この隠れマルコフモデルを使用して、本発明の方法及びシステムは、CNVを同定するように構成され得る。例えば、本発明の方法及びシステムは、(例えば、ビタビアルゴリズム又は他の適当なアルゴリズムによって予測される)状態の最尤配列が非2倍体である領域としてCNVを同定するように構成され得る。ビタビアルゴリズムを1方向のみで実行すると、CNVコールに方向バイアスが生じる可能性があることに留意されたい。CNVを「開く」ことは事実上高コストであるが、CNVを「拡張する」ことは低コストである。したがって、コールされたCNV領域は、後端の分断点をオーバシュートする傾向があり得る。この問題を解決するために、本発明の方法及びシステムは、5’から3’の方向でのビタビアルゴリズムの実行と3’から5’の方向での実行のどちらにおいても最も可能性の高い状態が非2倍体であるCNV領域のみを報告するように構成され得る。
一態様では、発見されたCNVのそれぞれに対して、以下の5つの品質評価指標が、前向き後向きアルゴリズムから確率に基づいて計算され得る:領域が任意のCNVを収容するphredスケールの確率Qany、真のCNVがコールされた領域から更に上流/下流に少なくとも1つのウィンドウを拡張するphredスケールの確率Qextend left及びQextend right、並びに真のCNVがコールされた領域に比べて少なくとも1つのウィンドウだけ上流又は下流に収縮するphredスケールの確率Qcontract left及びQcontract right
上述した、閾値範囲(例えば、[0.3,0.7])の外側にあるGC含量を有するウィンドウを演繹的にフィルタ処理する場合であってさえも、この閾値範囲の両端において統計的配列決定の不自然な結果が依然として高率で発生し得ることに留意されたい。ビタビアルゴリズム及び前向き後向きアルゴリズムは、「やや極端な」GC含量を有するウィンドウに対して、これらのウィンドウを完全に無視することなく、より少ない信用を置くように修正され(例えば、構成され)得る。この構成は、所与のウィンドウにおける全ての状態の対数出力確率に、ウィンドウのGC含量に基づいた範囲[0,1]内の重みを掛けることによって達成され得る。この構成は、(例えば、状態遷移確率によって符号化された)前のウィンドウに比べてこのウィンドウにおけるデータ(例えば、観測された被覆率)の相対的な重要度を低減させることができる。例として、デフォルトの演繹的に有効な範囲[0.3,0.7]内にあるGC比率fでは、ウィンドウ重みは、(1−(5abs(f−0.5))1818に等しい値に設定され得る。高次の多項式項は、極端でないGCに対して曲線を平坦にすることができるが(例えば、f=0.4では重み=0.99993)、有効なGC範囲の両端において急降下し得る(例えば、f=0.3333では重み=0.5)。
一態様では、各入力サンプルの性別が提供される場合、本発明の方法及びシステムは、モデルを当てはめ、性染色体上の領域に対するCNVコールを行うことができる。期待されるコピー数(例えば、2倍体又は1倍体)を性別に明示的に基づかせることは、そのような方法がコピー数状態の整数的な性質を考慮するため、性別に起因する分散を正規化することよりも、又はサンプルを高い相関性のあるサンプルと比較することよりも有効であ
り得る。例として、chrX上の領域に対して0.5倍の期待される被覆率を有する女性は、ヘテロ接合型欠失を有する可能性が高い。同じレベルの被覆率を有する男性は、男性が1/2のコピー数を有することはできないため、ヘテロ接合型欠失を有する可能性は低い。
工程210においては、1つ又は2つ以上のコピー数多型が出力され得る。例えば、1つ又は2つ以上のコピー数多型は、(例えば、ユーザーインターフェースを介して)ユーザーに出力され得る。1つ又は2つ以上のコピー数多型は、ネットワークを介して遠隔地に送信され得る。1つ又は2つ以上のコピー数多型は、別の実行可能プログラムに入力として提供され得る。1つ又は2つ以上のコピー数多型は、データベース又は他のファイル形式など、記憶場所に保存され得る。例示的な出力が図15に示されている。
図5は、コピー数多型を評価するための別の例示的な方法500を示しているフローチャートである。工程502においては、複数のゲノム領域を含むサンプル被覆率データが、(例えば、ユーザーによって、第1のデバイスから第2のデバイスに)提供され得る。一態様では、複数のゲノム領域は、1つ又は2つ以上のコーリングウィンドウ(例えば、複数のコーリングウィンドウ)に分割され得る。例えば、複数のゲノム領域のうち所定のサイズよりも大きいゲノム領域のみが分割され得る。
工程504においては、基準被覆率データの表示が、(例えば、ユーザーによって、第1のデバイスから第2のデバイスに)受信され得る。基準被覆率データは、サンプル分類技術に基づいて選択され得る。例えば、サンプル分類技術は、類似性によってサンプルを分類するための技術(例えば、アルゴリズム)を含むことができる。サンプル分類技術は、クラスタリングアルゴリズム、判別アルゴリズム、これらの組み合わせ、及び/又は同種のものを含むことができる。例えば、サンプル分類技術は、サンプル被覆率データの複数の評価指標を受信すること、サンプル被覆率データと基準被覆率データとの間の距離評価指標を複数の評価指標に基づいて定義すること、各サンプルの基準被覆率データを距離評価指標に基づいて選択すること、及び/又は同種のことを含むことができる。
例として、サンプル分類技術は、k最近傍探索(knn)アルゴリズムを含むことができる。サンプル分類技術に基づいて基準被覆率データを選択することは、以下のうちの1つ又は2つ以上を含むことができる:基準被覆率データに関連した複数の評価指標をスケーリングすること、スケーリングされた、基準被覆率データに関連した複数の評価指標に基づいてk−d木を生成すること、サンプル被覆率データに関連した複数の評価指標をスケーリングすること、スケーリングされた、サンプル被覆率データに関連した複数の評価指標に基づいてサンプル被覆率データをk−d木に追加すること、サンプル被覆率データに対して所定の数の最近傍データを、選択された基準被覆率データとして特定すること、及び/又は同種のこと。
工程506においては、サンプル被覆率データに適用してサンプル被覆率データを正規化する1つ又は2つ以上のフィルタが(例えば、ユーザーによって、第1のデバイス及び/又は第2のデバイスによって)選択され得る。例えば、サンプル被覆率データはフィルタ処理され得る。1つ又は2つ以上のフィルタは、以下のうちの1つ又は2つ以上のために構成され得る:1つ若しくは2つ以上のコーリングウィンドウをGC含量のレベルに基づいてフィルタ処理すること、1つ若しくは2つ以上のコーリングウィンドウを複数のゲノム領域のうちのあるゲノム領域のマッピング可能性スコアに基づいてフィルタ処理すること、1つ若しくは2つ以上のコーリングウィンドウを読み被覆率の中心傾向の測定値に基づいてフィルタ処理すること、1つ若しくは2つ以上のコーリングウィンドウを多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいてフィルタ処理すること、及び/又は同種のこと。
一態様では、GC含量のレベルに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのあるコーリングウィンドウを、そのコーリングウィンドウのGC含量のレベルが所定の範囲の外側にある場合に除外することを含むことができる。
一態様では、1つ又は2つ以上のコーリングウィンドウをマッピング可能性スコアに基づいてフィルタ処理することは、複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定することを含むことができる。例えば、複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定することは、第1の塩基がその複数のゲノム領域のうちのゲノム領域に重なるkマーの逆基準ゲノム頻度の平均を決定することを含むことができる。1つ又は2つ以上のコーリングウィンドウをマッピング可能性スコアに基づいてフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうち、複数のゲノム領域のうちのゲノム領域を収容するコーリングウィンドウを、その複数のゲノム領域のうちのゲノム領域のマッピング可能性スコアが所定の閾値を下回る場合に除外することを更に含むことができる。
一態様では、1つ又は2つ以上のコーリングウィンドウを読み被覆率の中心傾向の測定値に基づいてフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウを、その1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウが、類似のGC含量を有するコーリングウィンドウの期待される被覆率値を下回る読み被覆率の中心傾向の測定値を含む場合に除外することを含むことができる。
一態様では、1つ又は2つ以上のコーリングウィンドウを多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいてフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウを、その1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウが、多コピー重複が存在すると知られている領域内に発生する場合に除外することを含むことができる。
一態様では、フィルタ処理すること及び/又は正規化することは、コーリングウィンドウwの生被覆率を決定すること、コーリングウィンドウwのGC比率を条件とする1つ若しくは2つ以上のコーリングウィンドウにわたってサンプル被覆率データの中央値被覆率を決定すること、生被覆率を中央値被覆率で割ること(例えば、正規化されたサンプル被覆率データをもたらす)、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。例えば、コーリングウィンドウwのGC比率を条件とする複数のウィンドウにわたってサンプル被覆率データの中央値被覆率を決定することは、以下のうちの1つ又は2つ以上を含むことができる:1つ若しくは2つ以上のコーリングウィンドウをGC比率によってビニングすること(例えば、複数のビンをもたらす)、複数のビンのうちの各ビンに対して中央値被覆率を決定すること、コーリングウィンドウwに最も近い2つのビンの中央値被覆率の間の線形補間を使用して別個の可能なGC比率ごとに正規化係数を決定すること、及び/又は同種のこと。
工程508においては、基準被覆率データに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることが、(例えば、ユーザーによって、第1のデバイスから第2のデバイスに)要求され得る。例えば、選択された基準被覆率データに従って混合分布モデルを訓練することが要求され得る。基準被覆率データに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることは、複数の混合分布モデルを複数のゲノム領域のそれぞれにつき1つ決定することを含むことができる。複数の混合分布モデルの各構成要素は、特定のコピー数を条件とする期待される正規化された被覆率を表
現する確率分布を含むことができる。基準被覆率データに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることは、1つ又は2つ以上のコーリングウィンドウのそれぞれにおいて各コピー数の尤度を決定するために、期待値最大化アルゴリズムを使用して複数の混合分布モデルを正規化されたサンプル被覆率データに当てはめることを含むことができる。選択された基準被覆率データは、期待値最大化アルゴリズムに入力され得る。
工程510においては、1つ又は2つ以上のコピー数多型が、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて隠れマルコフモデル(HMM)により(例えば、ユーザーによって、第1のデバイスによって、第2のデバイスによって)同定され得る。例えば、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて1つ又は2つ以上のコピー数多型を隠れマルコフモデル(HMM)により同定することは、(例えば、1つ又は2つ以上のコーリングウィンドウの)各コーリングウィンドウに対する正規化されたサンプル被覆率データをHMMに入力すること、混合分布モデルに基づいてHMMの1つ若しくは2つ以上の出力確率を決定すること、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定すること、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。
一態様では、混合分布モデルに基づいてHMMの1つ又は2つ以上の出力確率を決定することは、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)コーリングウィンドウwにて、HMM状態sが与えられ、状態sに対応するwの混合分布モデルの構成要素に基づいて、正規化された被覆率値xを観測する確率を決定することを含むことができる。
一態様では、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定することは、複数のゲノム領域のうちのあるゲノム領域上で5’から3’の方向にビタビアルゴリズムを実行すること、複数のゲノム領域のうちのそのゲノム領域上で3’から5’の方向にビタビアルゴリズムを実行すること、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウに関連した複数のゲノム領域のうちのゲノム領域が5’から3’の方向及び3’から5’の方向において非2倍体の最も可能性の高い状態を有する場合にCNVとして同定すること、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。
工程512においては、1つ又は2つ以上のコピー数多型の表示が、(例えば、ユーザーによって、第1のデバイスによって、第2のデバイスによって)受信され得る。例えば、表示は、ネットワーク及び/又は同種のものを介してディスプレイに提供され得る。1つ又は2つ以上のコピー数多型の例示的な表示が図15に示されている。
図6は、コピー数多型を評価するための別の例示的な方法600を示しているフローチャートである。工程602においては、複数のゲノム領域を含むサンプル被覆率データが受信され得る。一態様では、複数のゲノム領域は、1つ又は2つ以上のコーリングウィンドウ(例えば、複数のコーリングウィンドウ)に分割され得る。例えば、複数のゲノム領域のうち所定のサイズよりも大きいゲノム領域のみが分割され得る。
一態様では、サンプル被覆率データはフィルタ処理され得る。例えば、サンプル被覆率データをフィルタ処理することは、1つ若しくは2つ以上のコーリングウィンドウをGC含量のレベルに基づいてフィルタ処理すること、1つ若しくは2つ以上のコーリングウィ
ンドウを複数のゲノム領域のうちのあるゲノム領域のマッピング可能性スコアに基づいてフィルタ処理すること、1つ若しくは2つ以上のコーリングウィンドウを読み被覆率の中心傾向の測定値に基づいてフィルタ処理すること、1つ若しくは2つ以上のコーリングウィンドウを多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいてフィルタ処理すること、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。
一態様では、GC含量のレベルに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのあるコーリングウィンドウを、そのコーリングウィンドウのGC含量のレベルが所定の範囲の外側にある場合に除外することを含むことができる。1つ又は2つ以上のコーリングウィンドウをマッピング可能性スコアに基づいてフィルタ処理することは、複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定することを含むことができる。例えば、複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定することは、第1の塩基がその複数のゲノム領域のうちのゲノム領域に重なるkマーの逆基準ゲノム頻度の平均を決定することを含むことができる。1つ又は2つ以上のコーリングウィンドウをマッピング可能性スコアに基づいてフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうち、複数のゲノム領域のうちのゲノム領域を収容するコーリングウィンドウを、その複数のゲノム領域のうちのゲノム領域のマッピング可能性スコアが所定の閾値を下回る場合に除外することを更に含むことができる。
一態様では、1つ又は2つ以上のコーリングウィンドウを読み被覆率の中心傾向の測定値に基づいてフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウを、その1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウが、類似のGC含量を有するコーリングウィンドウの期待される被覆率値を下回る読み被覆率の中心傾向の測定値を含む場合に除外することを含むことができる。多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理することは、1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウを、その1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウが、多コピー重複が存在すると知られている領域内に発生する場合に除外することを含むことができる。
工程604においては、サンプル被覆率データの第1の複数の評価指標が取得され得る。第1の複数の評価指標は、例えば、配列決定品質管理(QC)評価指標、サンプルメタデータ、家系に基づいた値、配列類似性スコア、及び/又はサンプルレベルのばらつきを捕捉する任意の評価指標を含むことができる。例えば、配列決定QC評価指標の場合、7つのQC評価指標が使用され得る。例として、配列決定QC評価指標は、GCDROPOUT、ATDROPOUT、MEANINSERTSIZE、ONBAITVSSELECTED、PCTPFUQREADS、PCTTARGETBASES10X、PCTTARGETBASES50X、及び/又は同種のものを含むことができる。配列決定QC評価指標は、(例えば、線形変換を適用することによって)スケーリングされ、処理されて、k−d木を構築し得る。
工程606においては、基準被覆率データのサブセットを選択するために、サンプル分類技術がサンプル被覆率データ及び基準被覆率データに適用され得る。サンプル分類技術は、類似性によってサンプルを分類するための技術(例えば、アルゴリズム)を含むことができる。例えば、サンプル分類技術は、クラスタリングアルゴリズム、判別アルゴリズム、これらの組み合わせ、及び/又は同種のものを含むことができる。一態様では、サンプル分類技術をサンプル被覆率データ及び基準被覆率データに適用して基準被覆率データのサブセットを選択することは、サンプル被覆率データと基準被覆率データとの間の距離評価指標を第1の複数の評価指標に基づいて定義することを含むことができる。基準被覆
率データは、距離評価指標に基づいてサンプルごとに選択され得る。
別の例として、サンプル分類技術は、k最近傍探索(knn)アルゴリズムを含むことができる。サンプル分類技術をサンプル被覆率データ及び基準被覆率データに適用して基準被覆率データのサブセットを選択することは、以下のうちの1つ又は2つ以上を含むことができる:基準被覆率データに関連した第2の複数の評価指標を取得すること、基準被覆率データに関連した第2の複数の評価指標をスケーリングすること、スケーリングされた、基準被覆率データに関連した第2の複数の評価指標に基づいてk−d木を生成すること、サンプル被覆率データの第1の複数の評価指標をスケーリングすること、スケーリングされた、サンプル被覆率データの第1の複数の評価指標に基づいてサンプル被覆率データをk−d木に追加すること、サンプル被覆率データに対して所定の数の最近傍データを基準被覆率データのサブセットとして特定すること、及び/又は同種のこと。
工程608においては、複数のゲノム領域を含むサンプル被覆率データが正規化され得る。例えば、複数のゲノム領域を含むサンプル被覆率データを正規化することは、コーリングウィンドウwの生被覆率を決定すること、コーリングウィンドウwのGC比率を条件とする1つ若しくは2つ以上のコーリングウィンドウにわたってサンプル被覆率データの中央値被覆率を決定すること、生被覆率を中央値被覆率で割ること(例えば、正規化されたサンプル被覆率データをもたらす)、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。
一態様では、コーリングウィンドウwのGC比率を条件とする複数のウィンドウにわたってサンプル被覆率データの中央値被覆率を決定することは、1つ若しくは2つ以上のコーリングウィンドウをGC比率によってビニングすること(例えば、複数のビンをもたらす)、複数のビンのうちの各ビンに対して中央値被覆率を決定すること、コーリングウィンドウwに最も近い2つのビンの中央値被覆率の間の線形補間を使用して別個の可能なGC比率ごとに正規化係数を決定すること、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。
工程610においては、混合分布モデルが、基準被覆率データのサブセットに基づいて、正規化されたサンプル被覆率データに当てはめられ得る。例えば、混合分布モデルは、基準被覆率データのサブセットに従って訓練され得る。基準被覆率データのサブセットに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることは、複数の混合分布モデルを複数のゲノム領域のそれぞれにつき1つ決定することを含むことができる。複数の混合分布モデルの1つ又は2つ以上の(又はそれぞれの)構成要素は、特定のコピー数を条件とする期待される正規化された被覆率を表現する確率分布を含むことができる。基準被覆率データのサブセットに基づいて混合分布モデルを正規化されたサンプル被覆率データに当てはめることはまた、1つ又は2つ以上のコーリングウィンドウのそれぞれにおいて各コピー数の尤度を決定するために、期待値最大化アルゴリズムを使用して複数の混合分布モデルを正規化されたサンプル被覆率データに当てはめることを含むこともできる。基準被覆率データのサブセットは、期待値最大化アルゴリズムに入力され得る。
工程612においては、1つ又は2つ以上のコピー数多型が、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて隠れマルコフモデル(HMM)により同定され得る。例えば、正規化されたサンプル被覆率データ及び当てはめられた混合分布モデルに基づいて1つ又は2つ以上のコピー数多型を隠れマルコフモデル(HMM)により同定することは、(例えば、1つ又は2つ以上のコーリングウィンドウの)各コーリングウィンドウに対する正規化されたサンプル被覆率データをHMMに入力すること、混合分布モデルに基づいてHMMの1つ若しくは2つ以上の出力確率を決定すること、
(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定すること、及び/又は同種のこと、のうちの1つ又は2つ以上を含むことができる。一態様では、混合分布モデルに基づいてHMMの1つ又は2つ以上の出力確率を決定することは、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)コーリングウィンドウwにて、HMM状態sが与えられ、状態sに対応するwの混合分布モデルの構成要素に基づいて、正規化された被覆率値xを観測する確率を決定することを含むことができる。
一態様では、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定することは、以下のうちの1つ又は2つ以上を含むことができる:複数のゲノム領域のうちのあるゲノム領域上で5’から3’の方向にビタビアルゴリズムを実行すること、複数のゲノム領域のうちのそのゲノム領域上で3’から5’の方向にビタビアルゴリズムを実行すること、(例えば、1つ又は2つ以上のコーリングウィンドウのうちの)あるコーリングウィンドウを、そのコーリングウィンドウに関連した複数のゲノム領域のうちのゲノム領域が5’から3’の方向及び3’から5’の方向において非2倍体の最も可能性の高い状態を有する場合にCNVとして同定すること、及び/又は同種のこと。
工程614においては、1つ又は2つ以上のコピー数多型が出力され得る。例えば、1つ又は2つ以上のコピー数多型は、(例えば、ユーザーインターフェースを介して)ユーザーに出力され得る。1つ又は2つ以上のコピー数多型は、ネットワークを介して遠隔地に送信され得る。1つ又は2つ以上のコピー数多型は、別の実行可能プログラムに入力として提供され得る。1つ又は2つ以上のコピー数多型は、データベース又は他のファイル形式など、記憶場所に保存され得る。例示的な出力が図15に示されている。
例示的な態様では、方法及びシステムは、図7に示され、以下に説明されるように、コンピュータ701上に実装され得る。同様に、開示の方法及びシステムは、1つ又は2つ以上のコンピュータを利用して、1つ又は2つ以上の機能を1つ又は2つ以上の場所で実行することができる。図7は、開示の方法を実行するための例示的な動作環境を示しているブロック図である。この例示的な動作環境は、動作環境の一例に過ぎず、動作環境アーキテクチャの使用又は機能の範囲に関していかなる制限の示唆も意図するものではない。動作環境は、例示的な動作環境に図示されている構成要素のいずれか1つ又は任意の組み合わせに関連したいかなる依存性も必要条件も有しないものと解釈される。
本発明の方法及びシステムは、多数の他の汎用又は専用のコンピューティングシステム環境又は構成と共に動作可能であり得る。本発明のシステム及び方法と共に使用するのに適し得る周知のコンピューティングシステム、環境、及び/又は構成の例には、パーソナルコンピュータ、サーバーコンピュータ、ラップトップデバイス、及び多重プロセッサシステムが含まれるが、これらに限定されない。追加の例には、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上述のシステム又はデバイス及び同種のもののいずれかを含む分散型のコンピューティング環境が含まれる。
開示の方法及びシステムの処理は、ソフトウェア構成要素によって実行され得る。開示のシステム及び方法は、1つ又は2つ以上のコンピュータ又は他のデバイスによって実行される、プログラムモジュールなど、コンピュータ実行可能命令の一般的な文脈で説明され得る。一般に、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データ型を実装する、コンピュータコード、ルーチン、プログラム、オブジェクト、コン
ポーネント、データ構造などを含む。開示の方法はまた、通信ネットワークを介して結合されるリモート処理デバイスによってタスクが実行される、グリッドベース及び分散型のコンピューティング環境でも実践され得る。分散型のコンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めてローカル及びリモートのコンピュータ記憶媒体のどちらにも配置され得る。
更に、本明細書に開示されたシステム及び方法は、汎用のコンピューティングデバイスによってコンピュータ701の形態で実装され得ることを当業者なら理解するであろう。コンピュータ701の構成要素には、1つ又は2つ以上のプロセッサ703、システムメモリ712、及び、1つ又は2つ以上のプロセッサ703を含めて様々なシステム構成要素をシステムメモリ712に連結するシステムバス713が含まれ得るが、これらに限定されない。システムは、並列コンピューティングを利用することができる。
システムバス713は、メモリバス若しくはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、又は様々なバスアーキテクチャのいずれかを使用するローカルバスを含めて、いくつかの可能なタイプのバス構造のうちの1つ又は2つ以上を表現する。例として、このようなアーキテクチャには、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクス規格協会(VESA)ローカルバス、アクセラレーテッドグラフィックスポート(AGP)バス、ペリフェラルコンポーネントインターコネクト(PCI)、PCIエクスプレスバス、パーソナルコンピュータメモリカード国際協会(PCMCIA)、ユニバーサルシリアルバス(USB)、及び同種のものが含まれ得る。バス713、及び本説明で指定される全てのバスはまた、有線又は無線のネットワーク接続を介して実装され得、1つ又は2つ以上のプロセッサ703、大容量記憶デバイス704、オペレーティングシステム705、CNVコーリングソフトウェア706、CNVコーリングデータ707、ネットワークアダプタ708、システムメモリ712、入力/出力インターフェース710、ディスプレイアダプタ709、ディスプレイデバイス711、及びヒューマンマシンインターフェース702を含めて、サブシステムのそれぞれは、物理的に分離した場所にある1つ又は2つ以上のリモートコンピューティングデバイス714a、b、cの内部に収容され得、この形態のバスを介して接続され、完全に分散型のシステムを実質的に実装する。
コンピュータ701は、典型的には、様々なコンピュータ可読媒体を備える。例示的な可読媒体は、コンピュータ701によってアクセスすることができる任意の使用可能な媒体であり得、例えば、これに限定されるものではないが、揮発性媒体と不揮発性媒体の両方、取り外し可能な媒体と取り外し不可能な媒体の両方を含む。システムメモリ712は、ランダムアクセスメモリ(RAM)などの揮発性メモリ及び/又はリードオンリメモリ(ROM)などの不揮発性メモリの形態でコンピュータ可読媒体を含む。システムメモリ712は、典型的には、1つ又は2つ以上のプロセッサ703によってすぐにアクセス可能である、及び/又は現在操作される、CNVコーリングデータ707などのデータ、並びに/又はオペレーティングシステム705及びCNVコーリングソフトウェア706などのプログラムモジュールを収容する。
別の態様では、コンピュータ701はまた、他の取り外し可能な/取り外し不可能な、揮発性/不揮発性のコンピュータ記憶媒体を備えることもできる。例として、図7は、コンピュータコード、コンピュータ可読命令、データ構造、プログラムモジュール、及びコンピュータ701用の他のデータの不揮発性記憶を提供することができる大容量記憶デバイス704を示している。例えば、これに限定されるものではないが、大容量記憶デバイス704は、ハードディスク、取り外し可能な磁気ディスク、取り外し可能な光学式ディスク、磁気カセット又は他の磁気記憶デバイス、フラッシュメモリカード、CD−ROM
、デジタル多用途ディスク(DVD)又は他の光学式記憶、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的消去再書込み可能な読出し専用メモリ(EEPROM)、及び同種のものであり得る。
任意追加的には、例えば、オペレーティングシステム705及びCNVコーリングソフトウェア706を含めて、任意の数のプログラムモジュールが、大容量記憶デバイス704上に保存され得る。オペレーティングシステム705及びCNVコーリングソフトウェア706のそれぞれ(又はこれらの一部の組み合わせ)は、プログラミング及びCNV
コーリングソフトウェア706の要素を含むことができる。CNVコーリングデータ707もまた、大容量記憶デバイス704上に保存され得る。CNVコーリングデータ707は、当該技術分野において周知の1つ又は2つ以上のデータベースのいずれかに保存され得る。このようなデータベースの例には、DB2(登録商標)、Microsoft(登録商標)Access、Microsoft(登録商標)SQL Server、Oracle(登録商標)、mySQL、PostgreSQL、及び同種のものが含まれる。データベースは、複数のシステムにわたって集中化又は分散化され得る。
別の態様では、ユーザーは、入力デバイス(図示せず)を介してコマンド及び情報をコンピュータ701に入力することができる。このような入力デバイスの例には、キーボード、ポインティングデバイス(例えば、「マウス」)、マイクロホン、ジョイスティック、スキャナー、グローブ及び他の人体を覆うものなどの触覚入力デバイス、並びに同種のものが含まれるが、これらに限定されない。これら及び他の入力デバイスは、システムバス713に連結されるヒューマンマシンインターフェース702を介して1つ又は2つ以上のプロセッサ703に接続され得るが、パラレルポート、ゲームポート、IEEE 1394ポート(ファイアワイヤポートの別名でも知られる)、シリアルポート、又はユニバーサルシリアルバス(USB)など、他のインターフェース及びバス構造によって接続され得る。
更に別の態様では、ディスプレイデバイス711もまた、ディスプレイアダプタ709などのインターフェースを介してシステムバス713に接続され得る。コンピュータ701は2つ以上のディスプレイアダプタ709を有し得、コンピュータ701は2つ以上のディスプレイデバイス711を有し得ることが企図される。例えば、ディスプレイデバイスは、モニタ、LCD(液晶ディスプレイ)、又はプロジェクターであり得る。ディスプレイデバイス711に加えて、他の出力周辺デバイスには、入力/出力インターフェース710を介してコンピュータ701に接続され得るスピーカー(図示せず)及びプリンター(図示せず)などの構成要素が含まれ得る。方法の任意の工程及び/又は結果は、任意の形態で出力デバイスに出力され得る。このような出力は、テキスト、図表、動画、音声、触覚などを含むが、これらに限定されない、任意の形態の視覚的表現であり得る。ディスプレイ711及びコンピュータ701は、1つのデバイスの一部であるか、又は別個のデバイスであり得る。
コンピュータ701は、1つ又は2つ以上のリモートコンピューティングデバイス714a、b、cへの論理接続を使用して、ネットワーク化された環境で動作することができる。例えば、リモートコンピューティングデバイスは、パーソナルコンピュータ、ポータブルコンピュータ、スマートフォン、サーバー、ルーター、ネットワークコンピュータ、ピアデバイス、又は他の一般的なネットワークノードなどであり得る。コンピュータ701とリモートコンピューティングデバイス714a、b、cとの間の論理接続は、ローカルエリアネットワーク(LAN)及び/又は一般的なワイドエリアネットワーク(WAN)など、ネットワーク715を介して作成され得る。このようなネットワーク接続は、ネットワークアダプタ708を経由し得る。ネットワークアダプタ708は、有線環境及び無線環境のどちらでも実装され得る。このようなネットワーキング環境は、居住施設、事
務所、企業規模のコンピュータネットワーク、イントラネット、及びインターネットにおいて従来通りのありふれたものである。
例示を目的として、アプリケーションプログラム、及びオペレーティングシステム705などの他の実行可能プログラム構成要素は、本明細書に別個のブロックとして示されているが、このようなプログラム及び構成要素は、コンピューティングデバイス701の様々な記憶構成要素内に様々なときに存在し、コンピュータの1つ又は2つ以上のプロセッサ703によって実行されることは理解される。CNVコーリングソフトウェア706の実装は、コンピュータ可読媒体のいくつかの形態の上に保存される、又はそれらにわたって伝送され得る。いずれの開示の方法も、コンピュータ可読媒体上に具体化されたコンピュータ可読命令によって実行され得る。コンピュータ可読媒体は、コンピュータによってアクセスすることができる任意の使用可能な媒体であり得る。例えば、これに限定されるものではないが、コンピュータ可読媒体には、「コンピュータ記憶媒体」及び「通信媒体」が含まれ得る。「コンピュータ記憶媒体」には、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性の、取り外し可能な及び取り外し不可能な媒体が含まれる。例示的なコンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)若しくは他の光学式記憶、磁気カセット、磁気テープ、磁気ディスク記憶デバイス若しくは他の磁気記憶デバイス、又は、所望の情報を保存するために使用することができ、かつ、コンピュータによってアクセスすることができる任意の他の媒体が含まれるが、これらに限定されない。
方法及びシステムは、機械学習及び反復学習などの人口知能技術を用いることができる。このような技術の例には、エキスパートシステム、事例ベース推論、ベイジアンネットワーク、行動ベースAI、ニューラルネットワーク、ファジーシステム、進化的計算(例えば、遺伝的アルゴリズム)、群知能(例えば、アントアルゴリズム)、及びハイブリッド知的システム(例えば、ニューラルネットワークによって生成されるエキスパート推論ルール又は統計的学習からのプロダクションルール)が挙げられるが、これらに限定されない。
以下の実施例は、本明細書で特許請求される化合物、組成物、物品、デバイス、及び/又は方法を作製し評価する方法の完全な開示及び説明を当業者に提供するために記載され、純粋に例示を意図するものであり、方法及びシステムの範囲を制限することを意図するものではない。数字(例えば、量など)に対する精度を確保する努力がなされたが、ある程度の誤差及び偏差が考慮されるべきである。
本発明の方法及びシステムは、様々な検証実験によって検証された。第1の実験は、ある家系でのメンデル遺伝パターンに対して、CLAMMS及び他のアルゴリズムからのCNVコールの忠実性を評価した。1組の3164個のサンプルに対するCLAMMS、XHMM(別の広く用いられているアルゴリズム)、及びSNP遺伝子型判定アレイからのコールが比較されている。別の検証実験は、TaqMan qPCRを使用して、CLAMMSによって予測されたCNVを検証した。例えば、TaqMan qPCRは、17の一般多型座にわたって、37の座においてCLAMMSを検証するために例として使用され得る(95%の希少多型検証)。平均精度及びリコールは、それぞれ、99%及び94%である。
本発明の方法及びシステムの検証には、操作の複雑性及びCLAMMSアルゴリズムの拡張性の解析が含まれていた。例えば、k−d木を維持することには、1サンプルにつきO(log n)時間しかかからないので、n個のサンプルを配列決定することには、O
(n log n)時間がかかり得る。この方法は、以前のアルゴリズムのO(n)複雑性(例えば、CANOES及びExomeDepthのPCA法及び基準パネル選択法のどちらも、各サンプルの被覆率プロファイルが全ての他のサンプルに比較される必要がある)を改善する。
本明細書で更に説明されるように、メンデル遺伝パターンに対する、CLAMMS、XHMM、CoNIFER、CANOES、及びExomeDepthからのCNVコールの忠実性が、評価され得る。例として、これらのアルゴリズムからのCNVコールの忠実性は、3回の技術的反復で配列決定された、CEPH家系1463の8人に対して評価された。92個の追加のサンプルが、基準パネルとして提供された。この家系のほとんどのCNVは、(例えば、定義により)一般多型であることに留意されたい。コールの98%は遺伝したものであり、94%は3回の技術的反復の全てにわたって一致した。他の評価したアルゴリズムの統計を以下に更に提示する。
一般CNVに対するCLAMMSアルゴリズムの性能の向上は、希少CNVに対する性能の低下によって達成されているわけではない。例えば、別の検証実験として、CLAMMS及びXHMMからのCNVコールが、3164個のサンプルについて(例えば、SNP遺伝子型判定アレイからのデータを使用する)PennCNVからの「至適基準」コールと比較された。PennCNVコールには、いくつかの品質管理フィルタが適用された。希少多型(例えば、アレイデータ内でAF≦0.1%)では、XHMMの66%精度及び64%リコールに比べて、CLAMMSは78%精度及び65%リコールを有した。
別の検証実験として、CLAMMSによって予測されたCNVのランダムなサブセットを検証するために、TaqMan qPCRが使用され得る。TaqMan qPCRは、ヒト遺伝子突然変異データベース内の疾患関連遺伝子に重なる20の希少多型座及び20の一般多型座において検証するために使用された。この例示的な検証実験では、CLAMMSによって予測された希少多型の19/20(95%)が検証された。3つの一般多型座が、TaqManデータ内での高い分散が原因で除外された。残りの17の座により、99.0%及び94.1%の平均精度/リコール値がそれぞれ算出された。別の結果として、16/17(94%)の座が偽陽性を有しなかった。更なる結果として、13/17の座(76%)が、遺伝子型判定された165個のサンプルに対して90%以上の感度を有した。図8〜図14は、これらの検証実験をより詳細に示している。
図8は、CLAMMS及び他のアルゴリズムのRAM使用量を比較している。他のアルゴリズムのRAM使用量がサンプル数に対して線形に増加しているのに対し、CLAMMsのRAM使用量は一定であるように見える。全てのアルゴリズムでは、50サンプルに対してCNVコーリングアルゴリズムのRAM使用量が示されている。CANOESを除いた全てのアルゴリズムでは、100及び200サンプルに対してCNVコーリングアルゴリズムのRAM使用量が示されており、CANOESは、4時間実行しても完了しなかった。3164サンプルに対しては、CLAMMS及びXHMMを使用してRAM使用量が示されている。
一態様では、CLAMMsアルゴリズムは、以下のように検証され得る。検証は、例えば、CEPH家系1463など、リポジトリからのデータを使用して実行され得る。第1の検証実験は、8人からなる家系(例えば、祖父母のNA12889、NA12890、NA12891、NA12892、親のNA12877、NA12878、及び子のNA12880、NA12882を含む、CEPH家系1463のサブセット)のメンデル遺伝パターンに対して、CLAMMS及び4つの他のアルゴリズム(XHMM、CoNIFER、CANOES、及びExomeDepth)からのCNVコールの忠実性を評価すること目的とした。8人の家系メンバーのそれぞれは、3回の技術的反復で配列決定され
た。CNVコールは、本明細書に記載されているように、各アルゴリズムのデフォルトパラメータを使用して行われた。92個の無関係なサンプルからなる基準パネルが、各アルゴリズムに対して使用可能にされた。公正な比較を確実にするために、CLAMMSによって使用される演繹的なフィルタ(例えば、極端なGC領域及びマッピング可能性の低い領域をフィルタ処理すること)が、全てのアルゴリズムで入力データに適用され得、その結果、性能の差は、CLAMMSの最も問題となるゲノム領域の除外によるものではなくなる。性染色体もまた、比較から除外された。
3つの評価指標がアルゴリズムごとに計算され得る:1)3回の技術的反復の全てにわたって一致したコールの割合、2)第1世代及び第2世代でのコールの伝達率、及び3)第2世代及び第3世代での遺伝したコールの割合。コールが伝達されたものかどうか及び/又は遺伝されたものかどうかを判定する際に50%重なり基準が使用された(例えば、子のCNVは、その少なくとも50%に親のいずれかのCNVが重なる場合は遺伝されたものである)。
図9は、CEPH家系に対するCNVコールの性能評価指標を示している表である。「コール数」列は、3回の技術的反復にわたる8人の家系メンバーに対するものである(例えば、合計で24個のサンプル)。CNVは、そのCNVの対立遺伝子頻度が1%以上である場合は一般として分類され、それ以外の場合は希少として分類された(例えば、希少CNVは偽陽性である可能性があることに留意されたい)。ExomeDepthコールは、ベイズ因子が10(例えば、又は他の閾値)未満の場合に除外され得る。図9はまた、各アルゴリズムによって行われ、技術的反復にわたって一致し、かつメンデル遺伝パターンに対応しているコールの数も示している。前述したように、CLAMMSを除き、言及した全てのアルゴリズムは、基準パネルサンプルが全ての座において2倍体である(例えば、単峰型被覆率分布をもたらす)と仮定して、もっぱら希少多型のみを重視している。したがって、家系内のほとんどのCNVが一般多型であるため、他のアルゴリズムの性能は低くなることが予想される。その一方でCLAMMSは、これらの一般多型を正確に遺伝子型判定する(例えば、そのコールの2%のみが推定的にデノボである)。メンデル伝達率より高いもの(例えば、61%)は、単に偶然に起因するものであり得る(例えば、第1世代及び第2世代には固有のCNV座が27のみ存在する)。
一態様では、検証は、「至適基準」アレイベースのCNVコールを使用して実行され得る。本発明者らによる第2の検証実験は、CLAMMS及びXHMMからのCNVコールを、Regeneron Genetics Centerのヒトエクソーム多型データベース内の1組の3164個のサンプルに対するSNP遺伝子型判定アレイからのデータを使用する、PennCNVからの「至適基準」コールと比較することを目的とした。試験セットサンプルは、以下の試験条件のいずれかを満たした場合は除外された:50を超えるPennCNVコール数、0.23(95パーセンタイル)を超えるLRR_SD(対数R比の標準偏差)、及び0.005(95パーセンタイル)を超えるBAF_drift(B対立遺伝子頻度浮動)。
一態様では、アレイベースのCNVコールは、エクソーム配列決定読み深度からのCNVコールよりも一般に精度が高いにもかかわらず、真の「至適基準」ではない場合があり、2つの公開されたデータセット(849の全ゲノムからのCNVコール、及び自閉症研究での19,584の制御遺伝子からのアレイベースのCNVコール)内のいずれの多型にも重ならなかったいくつかの推定コピー数多型座(例えば、1%を超えるAF)を含めて、偽陽性のものを含み得る。試験セット内の偽陽性率を最小化するために、希少であり、かつ、小さくないCNVのみが含められた。以下の条件のうちの1つ又は2つ以上が満たされるPennCNVコールは除外された:10kb未満又は2Mb超のCNV長、アレイ設計内の少なくとも1つのエクソン及び少なくとも10のSNPに重ならないCNV
、基準ゲノム(例えば、GRCh37)内のギャップ又はHapMap内の一般的なゲノム再編成に重なるCNV、0.1%を超える対立遺伝子頻度の特定のデータセット及び/又は3,164個の試験サンプル(例えば、CNVは、問題のCNVの少なくとも33.3%に重なる場合に対立遺伝子頻度数に含められる)。
全てのフィルタが適用された後の最終試験セットは、1,240個のサンプル内で1,715個のCNVを含むことができる(例えば、46%のDEL、54%のDUP)。この評価では、CLAMMS及びXHMMのどちらも、デフォルトのパラメータ及び手順で実行された。任意の特定のデータセットに対して中央値数の2倍のコールを有するサンプルを外れ値と見なすことが推奨される。この例示的なデータセットでは、CLAMMSコールの中央値数/サンプルは11である。CLAMMSが22を超えるコールを実行する、26個のサンプルからのCLAMMSコール(例えば、合計の0.8%)が除外された。これらのサンプルからのアレイコールは、依然として試験セットに含められ得る。
図10は、PennCNV「至適基準」と比較したCLAMMS及びXHMMのCNVコールを示す。精度は、PennCNVコールによって裏付けられ得る、即ち、2つのアルゴリズムに同じフィルタ処理基準が適用され、指定された重なり閾値でPennCNVコールが実際に重なるCLAMMS/XHMMコールの比率として計算され得る。リコール(例えば、感度)は、指定された重なり閾値で任意のCLAMMS/XHMMコールが重なるPennCNVコールの比率として計算され得る(例えば、フィルタの適用はなし)。Fスコアは、精度及びリコールの幾何平均として定義され得る。
一態様では、CLAMMSは、任意重なり基準を使用してXHMMよりも9.3%高い、33%重なり基準を使用して5.8%高い、及び50%重なり基準を使用して4.9%高いFスコアを達成することができる。この改善は、CLAMMSの精度の向上(例えば、重なり閾値に応じて18%〜20%の向上)によってもたらされる。
CLAMMSは、一般に、CNVの分断点を評価する際にPennCNV又はXHMMよりも保守的であり(例えば、より小さいCNVを報告する)、このことが、任意の重なりを使用すると50%重なりよりもリコールが著しく向上する理由である。本明細書で論じるように、PennCNV及びXHMMを含むアルゴリズムは、ビタビアルゴリズムを使用してCNV領域を同定し、エクソーム全体にわたって1方向(例えば、5’から3’)に走査を行う。このような方法は、CNVコールに方向バイアスを生じさせる。CNVを「開く」ことは事実上高コストであるが、CNVを「拡張する」ことは低コストであり、したがって、コールされたCNV領域は、3’端の分断点をオーバシュートする傾向がある。その一方でCLAMMSは、ビタビが前向き(5’から3’)及び後向き(3’から5’)に実行されるときに、コールされたCNV領域の交差部のみを報告するように構成され得、方向バイアスは除去される。
一態様では、検証は、以下のようにTaqMan qPCRを使用して実行され得る。CLAMMSによって予測されたCNV座(例えば、20の希少、20の一般)の選択を検証するために、TaqMan定量的PCRが使用され得る。各座では、PCRベースのコピー数予測が、希少座及び一般座のそれぞれ56/165サンプルのCLAMMS CNV遺伝子型と比較され得る。CNV座は、ヒト遺伝子突然変異データベース内に記録されている疾患関連を有する少なくとも1つの遺伝子に重なった全ての座の組からランダムに選択され得る。
この方法を使用して、希少多型の19/20(95%)が検証された。3/20の一般多型座はもっともらしく正しかったが、PCRデータにおいて高い分散を有し、結果を不明瞭にした。残りの一般多形座の16/17(94%)は偽陽性を有し、1つの座は5/
6のコールが正しかった。13/17(76%)の不明瞭でない一般多形座は、(例えば、100%の感度を有する9/17の座を含めて、)90%以上の感度を有した。他の4/17は、87.5%、87.3%、81.5%、及び70.1%の感度を有した。17座の精度値/感度値の平均は、それぞれ99.0%及び94.1%であった。
図11は、希少CNVのTaqMan検証を示している表を示す。この例示的な検証では、一般CNV座に対して試験された165個のサンプルは、各座が非2倍体コピー数のサンプルを正当な数で確実に有するために必要なサンプル数を最小化しようとしてランダムに選択されたものではない(例えば、このことが、表内のいくつかの座がちょうど10個の予測されたCNVを有する理由である)。
図12は、一般CNVのTaqMan検証を示している表を示す。図13は、LILRA3一般多型座に対するCLAMMS及びTaqManのコピー数予測の比較を示しているグラフである。図14は、LILRA3一般多型座に対するCLAMMS及びTaqManのコピー数予測の比較を示しているグラフである。
方法及びシステムは好ましい実施形態及び具体的な実施例と一緒に記載されているが、記載されている特定の実施形態によってその範囲を限定されるものではなく、本明細書に記載の実施形態はあらゆる面において制限ではなく例示を意図するものである。
特に明示的な記載のない限り、本明細書に記載されたいかなる方法も、その工程が特定の順序で実行される必要があるものと解釈されることは全く意図されていない。したがって、方法の請求項でその工程が従うべき順序を実際に列挙してなく、工程が特定の順序に制限されることを請求項又は説明で特に明記されていない場合、いかなる点においても順序が暗示されるようなことは全く意図されていない。このことは、工程又は作業フローの整列に関するロジックの問題、文法的な構成又は句読点から導き出される明白な意味、本明細書に記載された実施形態の番号又は種類を含め、解釈についての考えられるいかなる黙示基準にも当てはまる。
本願の全体を通じて、様々な出版物が参照される。これによって、方法及びシステムが属する最新技術を更に十分に説明するために、これらの出版物の開示内容全体が参照により本願に組み込まれる。
本発明の範囲及び趣旨から逸脱することなく様々な修正及び変更を行えることは当業者には明白であろう。本明細書及び本明細書に開示された実施例の考慮から、他の実施形態は当業者には明白であろう。本明細書及び実施例は例示としてのみ考慮され、実際の範囲及び趣旨は以下の特許請求の範囲によって示されることが意図される。

Claims (18)

  1. 複数のゲノム配列を含んでなるサンプル被覆率データセットと、サンプル配列決定品質管理評価指標とをコンピューティングデバイスによって受信するステップと、
    前記コンピューティングデバイスによって、配列決定品質管理(SQC)評価指標の組を類似性によって多次元木データ構造に分類するステップであって、前記配列決定品質管理(SQC)評価指標のそれぞれの組は、対応する基準被覆率データセットに関連付けられ、前記基準被覆率データセットは複数のゲノム領域と読み深度とを含む、分類するステップと、
    前記基準被覆率データセットの基準パネルを前記多次元木データ構造を用いて選択するステップであって、選択された前記基準被覆率データセットは前記サンプル配列決定品質管理評価指標に類似した配列決定品質管理評価指標を有する、基準パネルを選択するステップと、
    前記コンピューティングデバイスによって、前記サンプル被覆率データを正規化するステップと、
    前記複数のゲノム領域のそれぞれにおいて期待される被覆率分布を生成するために、前記コンピューティングデバイスによって、正規化された前記基準パネルを前記複数のゲノム領域のそれぞれにおいて混合分布モデルに当てはめるステップと、
    前記正規化されたサンプル被覆率データセットを、前記混合分布モデルからの前記複数のゲノム領域のそれぞれでの前記期待される被覆率分布と比べるために、隠れマルコフモデル(HMM)により1つ又は2つ以上のコピー数多型(CNV)を前記コンピューティングデバイスによって同定するステップとを備える、方法。
  2. 前記基準被覆率データセットの基準パネルを前記多次元木データ構造を用いて選択するステップが、
    前記サンプル配列決定品質管理評価指標と前記配列決定品質管理評価指標との間の距離評価指標を定義するステップと、
    前記距離評価指標に基づいて前記基準被覆率データセットの前記基準パネルを選択するステップと、を含んでなる、請求項1に記載の方法。
  3. 前記複数の基準被覆率データセットを分類するステップが、クラスタリングアルゴリズム、判別アルゴリズム、又はこれらの組み合わせの使用を含んでなる、請求項1に記載の方法。
  4. 前記配列決定品質管理(SQC)評価指標の組を分類するステップが、k最近傍探索(knn)アルゴリズムの使用を含んでなり、前記方法はさらに
    前記配列決定品質管理(SQC)の評価指標をスケーリングするステップと、
    前記サンプル配列決定品質管理評価指標をスケーリングするステップとを備え、
    前記配列決定品質管理(SQC)評価指標の組を類似性によって多次元木データ構造に分類するステップは、スケーリングされた前記配列決定品質管理(SQC)評価指標の組に基づいてk−d木を生成するステップを含んでなり
    前記方法はスケーリングされた前記サンプル配列決定品質管理評価指標を前記k−d木に追加するステップをさらに備え
    前記基準被覆率データセットの基準パネルを前記多次元木データ構造を用いて選択するステップは、前記サンプル被覆率データに対して所定の数の最近傍データでスケーリングされた配列決定品質管理評価指標をスケーリングされた前記サンプル配列決定品質管理評価指標に対して特定するステップを含んでなる、請求項1に記載の方法。
  5. 前記サンプル被覆率データセットの前記複数のゲノム領域を1つ又は2つ以上のコーリングウィンドウに分割するステップを更に備える、請求項1に記載の方法。
  6. 前記サンプル被覆率データセットを正規化するステップが、
    コーリングウィンドウwの生被覆率を決定するステップと、
    前記コーリングウィンドウwのGC比率を条件とする前記1つ又は2つ以上のコーリングウィンドウにわたって前記サンプル被覆率データセットの中央値被覆率を決定するステップと、
    前記生被覆率を前記中央値被覆率で割り、前記正規化されたサンプル被覆率データセットをもたらすステップとを含んでなる、請求項5に記載の方法。
  7. 前記コーリングウィンドウwのGC比率を条件とする前記複数のウィンドウにわたって前記サンプル被覆率データセットの中央値被覆率を決定するステップが、
    前記1つ又は2つ以上のコーリングウィンドウをGC比率によってビニングし、複数のビンをもたらすステップと、
    前記複数のビンのうちの各ビンに対して中央値被覆率を決定するステップと、
    前記コーリングウィンドウwに最も近い2つのビンの前記中央値被覆率の間の線形補間を使用して別個の可能なGC比率ごとに正規化係数を決定するステップとを含んでなる、請求項6に記載の方法。
  8. 前記サンプル被覆率データセットをフィルタ処理することを更に備える、請求項に記載の方法。
  9. 前記サンプル被覆率データセットをフィルタ処理するステップが、
    数のゲノム領域のうちのあるゲノム領域のマッピング可能性スコアに基づいて1つ又は2つ以上のコーリングウィンドウをフィルタ処理するステップと、
    多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいて前記1つ又は2つ以上のコーリングウィンドウをフィルタ処理するステップとを備える、請求項8に記載の方法。
  10. 前記1つ又は2つ以上のコーリングウィンドウを前記マッピング可能性スコアに基づいてフィルタ処理するステップが、
    前記複数のゲノム領域のうちの各ゲノム領域に対してマッピング可能性スコアを決定するステップと、
    前記1つ又は2つ以上のコーリングウィンドウのうち、前記複数のゲノム領域のうちの前記ゲノム領域を収容するコーリングウィンドウを、前記複数のゲノム領域のうちの前記ゲノム領域の前記マッピング可能性スコアが所定の閾値を下回る場合に除外するステップとを含んでなる、請求項9に記載の方法。
  11. 多コピー重複ゲノム領域内のコーリングウィンドウの発生に基づいて前記1つ又は2つ以上のコーリングウィンドウをフィルタ処理するステップが、
    前記1つ又は2つ以上のコーリングウィンドウのうちのあるコーリングウィンドウを、前記1つ又は2つ以上のコーリングウィンドウのうちの前記コーリングウィンドウが、多コピー重複が存在すると知られている領域内に発生する場合に除外することを含んでなる、請求項9に記載の方法。
  12. 前記基準パネルを前記混合分布モデルに当てはめるステップが、
    複数の混合分布モデルを、前記複数のゲノム領域のそれぞれにつき1つ決定するステップであって、前記複数の混合分布モデルの各構成要素が、特定のコピー数を条件とする期待される正規化された被覆率を表現する確率分布を含む、複数の混合分布モデルを決定するステップと、
    前記1つ又は2つ以上のコーリングウィンドウのそれぞれにおいて各コピー数の尤度を決定するために、期待値最大化アルゴリズムを使用して前記正規化された基準パネルを複数の前記混合分布モデルに当てはめるステップであって、前記正規化された基準パネルが前記期待値最大化アルゴリズムに入力される、期待値最大化アルゴリズムを使用して前記複数の混合分布モデルを前記正規化されたサンプル被覆率データに当てはめるステップとを含んでなる、請求項に記載の方法。
  13. 前記正規化されたサンプル被覆率データセットを前記混合分布モデルからの前記複数のゲノム領域のそれぞれでの前記期待される被覆率分布と比べるために隠れマルコフモデル(HMM)により1つ又は2つ以上のコピー数多型(CNVs)コンピューティングデバイスによって同定するステップが、
    前記1つ又は2つ以上のコーリングウィンドウのうちの各コーリングウィンドウに対する前記正規化されたサンプル被覆率データセットを前記HMMに入力するステップと、
    前記混合分布モデルに基づいて前記HMMの1つ又は2つ以上の出力確率を決定するステップと、
    前記1つ又は2つ以上のコーリングウィンドウのうちのあるコーリングウィンドウを、前記コーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定するステップとを含んでなる、請求項12に記載の方法。
  14. 前記混合分布モデルに基づいて前記HMMの1つ又は2つ以上の出力確率を決定するステップが、
    前記1つ又は2つ以上のコーリングウィンドウのうちのコーリングウィンドウwにて、HMM状態sが与えられ、状態sに対応するwの前記混合分布モデルの構成要素に基づいて、正規化された被覆率値xを観測する確率を決定するステップを含んでなる、請求項13に記載の方法。
  15. 前記1つ又は2つ以上のコーリングウィンドウのうちの前記コーリングウィンドウを、前記コーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定するステップが、
    前記複数のゲノム領域のうちのあるゲノム領域上で5’から3’の方向にビタビアルゴリズムを実行するステップと、
    前記複数のゲノム領域のうちの前記ゲノム領域の3’から5’の方向にビタビアルゴリズムを実行するステップと、
    前記1つ又は2つ以上のコーリングウィンドウのうちの前記コーリングウィンドウを、前記コーリングウィンドウに関連した前記複数のゲノム領域のうちの前記ゲノム領域が前記5’から3’の方向及び前記3’から5’の方向において非2倍体の最も可能性の高い状態を有する場合にCNVとして同定するステップと、を含んでなる、請求項13に記載の方法。
  16. 複数のゲノム配列と、サンプル配列決定品質管理評価指標とを含むサンプル被覆率データをコンピューティングデバイスによって設けるステップと、
    基準被覆率データの表示を受信するステップであって、前記基準被覆率データが、
    前記コンピューティングデバイスによって、配列決定品質管理(SQC)評価指標の組を類似性によって多次元木データ構造に分類するステップであって、前記配列決定品質管理(SQC)評価指標のそれぞれの組は、対応する基準被覆率データセットに関連付けられ、前記基準被覆率データセットは複数のゲノム領域と読み深度とを含む、分類するステップと、
    前記基準被覆率データセットの基準パネルを前記多次元木データ構造を用いて選択するステップであって、選択された前記基準被覆率データセットは前記サンプル配列決定品質管理評価指標に類似した配列決定品質管理評価指標を有する、基準パネルを選択するステップとによって選択される、基準被覆率データの表示を受信するステップと、
    前記サンプル被覆率データ及び前記基準パネルに適用する1つ又は2つ以上のフィルタを選択して前記サンプル被覆率データ及び前記基準パネルを正規化するステップと、
    前記正規化された基準パネルを、前記複数のゲノム領域のそれぞれでの期待される被覆率分布を生成するために、前記複数のゲノム領域のそれぞれでの混合分布モデルに当てはめることを要求するステップと、
    前記正規化されたサンプル被覆率データセットを隠れマルコフモデル(HMM)により前記混合分布モデルからの前記複数のゲノム領域のそれぞれでの前記期待される被覆率分布と比べるために、1つ又は2つ以上のコピー数多型(CNVs)前記コンピューティングデバイスによって同定することを要求するステップと、
    前記1つ又は2つ以上のコピー数多型の表示を受信するステップとを備える、方法。
  17. 前記正規化された基準パネルを前記混合分布モデルに当てはめるステップが、
    複数の混合分布モデルを、前記複数のゲノム領域のそれぞれにつき1つ決定するステップであって、前記複数の混合分布モデルの各構成要素が、特定のコピー数を条件とする期待される正規化された被覆率を表現する確率分布を含む、複数の混合分布モデルを、前記複数のゲノム領域のそれぞれにつき1つ決定するステップと、
    1つ又は2つ以上のコーリングウィンドウのそれぞれにおいて各コピー数の尤度を決定するために、期待値最大化アルゴリズムを使用して前記複数の混合分布モデルを前記正規化されたサンプル被覆率データに当てはめるステップであって、前記正規化された基準パネルが前記期待値最大化アルゴリズムに入力される、期待値最大化アルゴリズムを使用して前記正規化された基準パネルを前記複数の混合分布モデルに当てはめるステップと、を含んでなる、請求項16に記載の方法。
  18. 前記正規化されたサンプル被覆率データセットを隠れマルコフモデル(HMM)により前記混合分布モデルからの前記複数のゲノム領域のそれぞれでの前記期待される被覆率分布と比べるために、1つ又は2つ以上のコピー数多型(CNVs)前記コンピューティングデバイスによって同定するステップが、
    前記1つ又は2つ以上のコーリングウィンドウのうちの各コーリングウィンドウに対する前記正規化されたサンプル被覆率データを前記HMMに入力するステップと、
    前記混合分布モデルに基づいて前記HMMの1つ又は2つ以上の出力確率を決定するステップと、
    前記1つ又は2つ以上のコーリングウィンドウのうちのあるコーリングウィンドウを、前記コーリングウィンドウの状態の最尤配列が非2倍体である場合にCNVとして同定するステップと、を含んでなる、請求項18に記載の方法。
JP2017559843A 2015-05-18 2016-05-13 コピー数多型検出のための方法及びシステム Active JP6718885B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/714,949 US10395759B2 (en) 2015-05-18 2015-05-18 Methods and systems for copy number variant detection
US14/714,949 2015-05-18
PCT/US2016/032484 WO2016187051A1 (en) 2015-05-18 2016-05-13 Methods and systems for copy number variant detection

Publications (2)

Publication Number Publication Date
JP2018523198A JP2018523198A (ja) 2018-08-16
JP6718885B2 true JP6718885B2 (ja) 2020-07-08

Family

ID=56081611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017559843A Active JP6718885B2 (ja) 2015-05-18 2016-05-13 コピー数多型検出のための方法及びシステム

Country Status (16)

Country Link
US (2) US10395759B2 (ja)
EP (1) EP3298523B1 (ja)
JP (1) JP6718885B2 (ja)
KR (1) KR102307872B1 (ja)
CN (1) CN107810502B (ja)
AU (1) AU2016263192B2 (ja)
BR (1) BR112017024742A2 (ja)
CA (1) CA2986117C (ja)
HK (1) HK1252103A1 (ja)
IL (1) IL255458B (ja)
MX (1) MX2017014659A (ja)
NZ (1) NZ737005A (ja)
RU (1) RU2746477C2 (ja)
SG (1) SG11201708787TA (ja)
WO (1) WO2016187051A1 (ja)
ZA (1) ZA201707665B (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015148776A1 (en) * 2014-03-27 2015-10-01 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10650012B1 (en) * 2016-07-13 2020-05-12 United States Of America As Represented By Secretary Of The Navy Multi-dimensional range-index searching using search box approximation and splitting
CN106651031B (zh) * 2016-12-21 2019-10-22 山东大学 基于历史信息的雷击闪络预警方法及系统
WO2018144228A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Systems and methods for quantitatively determining gene copy number
CN106920240A (zh) * 2017-03-09 2017-07-04 国家电网公司 一种基于红外图像的绝缘子识别和故障诊断方法
CN110741094B (zh) * 2017-03-20 2023-04-11 赛雷纳(中国)医疗科技有限公司 一种用于校正扩增子测序中扩增偏差的方法
CN107808209B (zh) * 2017-09-11 2021-09-14 重庆大学 基于加权kNN距离的风电场异常数据辨识方法
WO2019079455A1 (en) * 2017-10-17 2019-04-25 Affymetrix, Inc. VITERBI DECODER FOR PROCESSING MICROARRAY SIGNAL
WO2019079493A2 (en) * 2017-10-17 2019-04-25 President And Fellows Of Harvard College METHODS AND SYSTEMS FOR DETECTING SOMATIC STRUCTURAL VARIANTS
ES2711163B2 (es) * 2017-10-23 2021-04-14 Health In Code S L Sistema y método de detección de variantes genéticas estructurales.
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
AU2019280571B2 (en) * 2018-06-06 2024-06-20 Myriad Women's Health, Inc. Copy number variant caller
CN111755066B (zh) * 2019-03-27 2022-10-18 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN110106063B (zh) * 2019-05-06 2022-07-08 臻和精准医学检验实验室无锡有限公司 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
GB201910478D0 (en) * 2019-07-22 2019-09-04 Congenica Ltd System and method for copy number variant error correction
CN110737696A (zh) * 2019-10-12 2020-01-31 北京百度网讯科技有限公司 数据抽样方法、装置、电子设备及存储介质
CN111276184B (zh) * 2020-01-07 2023-12-26 深圳市早知道科技有限公司 一种检测已知拷贝数变异的方法及检测装置
CN113496761B (zh) * 2020-04-03 2023-09-19 深圳华大生命科学研究院 确定核酸样本中cnv的方法、装置及应用
CN111968701B (zh) * 2020-08-27 2022-10-04 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN113257087A (zh) * 2021-04-22 2021-08-13 吉林师范大学 一种应用数学的概率统计装置
WO2024010809A2 (en) * 2022-07-07 2024-01-11 Illumina Software, Inc. Methods and systems for detecting recombination events

Family Cites Families (422)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5840484A (en) 1992-07-17 1998-11-24 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
US8078407B1 (en) 1997-03-28 2011-12-13 Health Hero Network, Inc. System and method for identifying disease-influencing genes
JP2001523233A (ja) 1997-04-17 2001-11-20 グラクソ、グループ、リミテッド 混合物の統計的デコンボルーション
US7734656B2 (en) 1998-02-24 2010-06-08 Luc Bessette System and method for electronically managing medical data files in order to facilitate genetic research
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6703228B1 (en) 1998-09-25 2004-03-09 Massachusetts Institute Of Technology Methods and products related to genotyping and DNA analysis
AR021833A1 (es) * 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20010034023A1 (en) 1999-04-26 2001-10-25 Stanton Vincent P. Gene sequence variations with utility in determining the treatment of disease, in genes relating to drug processing
DE1233364T1 (de) 1999-06-25 2003-04-10 Genaissance Pharmaceuticals Verfahren zur herstellung und verwendung von Haplotype Daten
US20030190644A1 (en) 1999-10-13 2003-10-09 Andreas Braun Methods for generating databases and databases for identifying polymorphic genetic markers
EP1228370A2 (en) 1999-11-10 2002-08-07 Structural Bioinformatics Inc. Computationally derived protein structures in pharmacogenomics
US6658396B1 (en) 1999-11-29 2003-12-02 Tang Sharon S Neural network drug dosage estimation
US20030208454A1 (en) 2000-03-16 2003-11-06 Rienhoff Hugh Y. Method and system for populating a database for further medical characterization
US6532467B1 (en) 2000-04-10 2003-03-11 Sas Institute Inc. Method for selecting node variables in a binary decision tree structure
US20030195707A1 (en) 2000-05-25 2003-10-16 Schork Nicholas J Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof
WO2001092576A1 (en) 2000-05-26 2001-12-06 Duke University Methods of screening for parkinson's disease
AU2001273661A1 (en) 2000-06-30 2002-01-14 Duke University Methods of screening for alzheimer's disease
WO2002017207A2 (en) 2000-08-23 2002-02-28 Arexis Ab System and method of storing genetic information
WO2002025528A1 (en) 2000-09-21 2002-03-28 Theradoc.Com, Inc. Systems and methods for manipulating medical data via a decision support system
US6596541B2 (en) 2000-10-31 2003-07-22 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US6586251B2 (en) 2000-10-31 2003-07-01 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US7105348B2 (en) 2000-10-31 2006-09-12 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US8010295B1 (en) 2000-11-06 2011-08-30 IB Security Holders LLC System and method for selectively classifying a population
US20030195706A1 (en) 2000-11-20 2003-10-16 Michael Korenberg Method for classifying genetic data
US20030104470A1 (en) 2001-08-14 2003-06-05 Third Wave Technologies, Inc. Electronic medical record, library of electronic medical records having polymorphism data, and computer systems and methods for use thereof
FR2817559B1 (fr) 2000-12-06 2003-12-12 Genodyssee Procede de determination d'un ou plusieurs polymorphisme(s) fontionnel(s) dans la sequence nucleique d'un gene "candidat" fonctionnel preselectionne et ses applications
US20020119451A1 (en) 2000-12-15 2002-08-29 Usuka Jonathan A. System and method for predicting chromosomal regions that control phenotypic traits
US20020082869A1 (en) 2000-12-27 2002-06-27 Gateway, Inc. Method and system for providing and updating customized health care information based on an individual's genome
AU785425B2 (en) 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis
US7957907B2 (en) 2001-03-30 2011-06-07 Sorenson Molecular Genealogy Foundation Method for molecular genealogical research
US20020187483A1 (en) 2001-04-20 2002-12-12 Cerner Corporation Computer system for providing information about the risk of an atypical clinical event based upon genetic information
WO2002090589A1 (en) 2001-05-03 2002-11-14 Genomed, Llc Method to find disease-associated snps and genes
US7065451B2 (en) 2001-05-24 2006-06-20 Board Of Regents, The University Of Texas System Computer-based method for creating collections of sequences from a dataset of sequence identifiers corresponding to natural complex biopolymer sequences and linked to corresponding annotations
CA2387277C (en) 2001-05-25 2015-03-03 Hitachi, Ltd. Information processing system using nucleotide sequence-related information
US6909971B2 (en) 2001-06-08 2005-06-21 Licentia Oy Method for gene mapping from chromosome and phenotype data
FI114551B (fi) 2001-06-13 2004-11-15 Licentia Oy Menetelmä, muistiväline ja tietokonejärjestelmä geenipaikannuksen kromosomi- ja fenotyyppidatasta
WO2003009210A1 (en) 2001-07-18 2003-01-30 Gene Logic, Inc. Methods of providing customized gene annotation reports
WO2003010537A1 (en) 2001-07-24 2003-02-06 Curagen Corporation Family based tests of association using pooled dna and snp markers
AU2002355562A1 (en) 2001-08-08 2003-02-24 Curagen Corporation System and method for identifying a genetic risk factor for a disease or pathology
US7529685B2 (en) 2001-08-28 2009-05-05 Md Datacor, Inc. System, method, and apparatus for storing, retrieving, and integrating clinical, diagnostic, genomic, and therapeutic data
US7461006B2 (en) 2001-08-29 2008-12-02 Victor Gogolak Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data
US20040142325A1 (en) 2001-09-14 2004-07-22 Liat Mintz Methods and systems for annotating biomolecular sequences
US20030211504A1 (en) 2001-10-09 2003-11-13 Kim Fechtel Methods for identifying nucleic acid polymorphisms
US20130246079A1 (en) 2012-03-14 2013-09-19 Mark A. Hoffman Determining a potential for atypical clinical events when selecting clinical agents
US20040086888A1 (en) 2001-10-18 2004-05-06 Kornblith Paul L Method for tandem genomic/proteomic analysis of proliferating cells
AU2002363329A1 (en) 2001-11-06 2003-05-19 Elizabeth Gray Pharmacogenomics-based system for clinical applications
US20030138778A1 (en) 2001-11-30 2003-07-24 Garner Harold R. Prediction of disease-causing alleles from sequence context
JP2006501528A (ja) 2001-12-03 2006-01-12 ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド コレスポンデンス分析および一次/二次曲線分析に基づく複合遺伝子学的分類の方法および装置
US7107155B2 (en) 2001-12-03 2006-09-12 Dnaprint Genomics, Inc. Methods for the identification of genetic features for complex genetics classifiers
US20050256649A1 (en) 2001-12-21 2005-11-17 Roses Allen D High throughput correlation of polymorphic forms with multiple phenotypes within clinical populations
US20040267458A1 (en) 2001-12-21 2004-12-30 Judson Richard S. Methods for obtaining and using haplotype data
US7383134B2 (en) 2002-01-15 2008-06-03 Piper James R Method and/or system for analyzing biological samples using a computer system
JP4594622B2 (ja) 2002-02-04 2010-12-08 インジェヌイティ システムズ インコーポレイテッド 薬発見法
US7324928B2 (en) 2002-03-06 2008-01-29 Kitchen Scott G Method and system for determining phenotype from genotype
US8725418B2 (en) 2002-03-25 2014-05-13 Janssen Pharmaceutica, N.V. Data mining of SNP databases for the selection of intragenic SNPs
US7135286B2 (en) 2002-03-26 2006-11-14 Perlegen Sciences, Inc. Pharmaceutical and diagnostic business systems and methods
FI116468B (fi) 2002-04-04 2005-11-30 Licentia Oy Geenikartoitusmenetelmä genotyyppi- ja fenotyyppidatasta sekä muistiväline ja tietokonejärjestelmä menetelmän suorittamiseksi
US20040175700A1 (en) 2002-05-15 2004-09-09 Elixir Pharmaceuticals, Inc. Method for cohort selection
US20040115701A1 (en) 2002-08-30 2004-06-17 Comings David E Method for risk assessment for polygenic disorders
US20040219567A1 (en) 2002-11-05 2004-11-04 Andrea Califano Methods for global pattern discovery of genetic association in mapping genetic traits
US20090012928A1 (en) 2002-11-06 2009-01-08 Lussier Yves A System And Method For Generating An Amalgamated Database
US7822555B2 (en) 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes
US10229244B2 (en) * 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
US20040161779A1 (en) 2002-11-12 2004-08-19 Affymetrix, Inc. Methods, compositions and computer software products for interrogating sequence variations in functional genomic regions
AU2003298733B2 (en) 2002-11-27 2009-06-18 Agena Bioscience, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
US20040146870A1 (en) 2003-01-27 2004-07-29 Guochun Liao Systems and methods for predicting specific genetic loci that affect phenotypic traits
EP1599576B1 (en) 2003-02-20 2016-04-27 Mayo Foundation For Medical Education And Research Methods for selecting antidepressant medications
US20050026173A1 (en) 2003-02-27 2005-02-03 Methexis Genomics, N.V. Genetic diagnosis using multiple sequence variant analysis combined with mass spectrometry
US20050019787A1 (en) 2003-04-03 2005-01-27 Perlegen Sciences, Inc., A Delaware Corporation Apparatus and methods for analyzing and characterizing nucleic acid sequences
EP1615993A4 (en) 2003-04-09 2012-01-04 Omicia Inc METHOD FOR SELECTION, RECORDING AND ANALYSIS OF GENETIC MARKERS USING APPLICATIONS FOR GENERALLY GENETIC PROFILES ON A WIDE BASE
US20040249677A1 (en) 2003-05-19 2004-12-09 Debarshi Datta Comprehensive searchable medical record system supporting healthcare delivery and experiment
WO2005020788A2 (en) 2003-08-01 2005-03-10 The General Hospital Corporation Cognition analysis
US20050086035A1 (en) 2003-09-02 2005-04-21 Pioneer Hi-Bred International, Inc. Computer systems and methods for genotype to phenotype mapping using molecular network models
US20050176031A1 (en) 2003-10-30 2005-08-11 Sears Christopher P. Kinship analysis program for missing persons and mass disaster
CA2549913A1 (en) 2003-11-26 2005-06-16 The Ohio State University Research Foundation Polymorphic cd24 genotypes that are predictive of multiple sclerosis risk and progression
US20050214811A1 (en) 2003-12-12 2005-09-29 Margulies David M Processing and managing genetic information
WO2005073408A2 (en) 2004-01-23 2005-08-11 Pyxis Genomics, Inc. Small segments of dna determine animal identity and source
EP1607898A3 (en) 2004-05-18 2006-03-29 Neal E. Solomon A bioinformatics system for functional proteomics modelling
US8335652B2 (en) 2004-06-23 2012-12-18 Yougene Corp. Self-improving identification method
US7622271B2 (en) 2004-07-26 2009-11-24 University Of Washington Identification of aging genes through large-scale analysis
US7937225B2 (en) 2004-09-03 2011-05-03 New York University Systems, methods and software arrangements for detection of genome copy number variation
US20080091358A1 (en) 2004-12-21 2008-04-17 Applied Research Systems Ars Holcing, N.V. Method And System For Identifying Gene-Trait Linkages
US7424371B2 (en) 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
RU2007124523A (ru) 2004-12-30 2009-02-10 ПРОВЕНТИС, Инк., (US) Способы, системы и компьютерные программные продукты для разработки и использования прогнозных моделей для прогнозирования большинства медицинских случаев, оценки стратегий вмешательства и для одновременной оценки нерегулярности биологических маркеров
US20060286566A1 (en) 2005-02-03 2006-12-21 Helicos Biosciences Corporation Detecting apparent mutations in nucleic acid sequences
US20080311574A1 (en) 2005-03-11 2008-12-18 Upender Manne Novel Missense Mutations and Single Nucleotide Polymorphisms in the Rabphillin-3A-Like Gene and Uses Thereof
US7603325B2 (en) 2005-04-07 2009-10-13 Jacobson David L Concurrent two-phase completion genetic algorithm system and methods
US20060269476A1 (en) 2005-05-31 2006-11-30 Kuo Michael D Method for integrating large scale biological data with imaging
US20070027636A1 (en) 2005-07-29 2007-02-01 Matthew Rabinowitz System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US7630947B2 (en) 2005-08-25 2009-12-08 Siemens Medical Solutions Usa, Inc. Medical ontologies for computer assisted clinical decision support
US20070122824A1 (en) 2005-09-09 2007-05-31 Tucker Mark R Method and Kit for Assessing a Patient's Genetic Information, Lifestyle and Environment Conditions, and Providing a Tailored Therapeutic Regime
JP2007102709A (ja) 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
EP3703058A1 (en) 2005-11-29 2020-09-02 Children's Hospital Medical Center A method of selecting a medication for a patient
ZA200805554B (en) 2005-12-01 2009-12-30 Bioarts & Res Corp Online marketplace for animal genetics
EP1969514A2 (en) 2005-12-14 2008-09-17 Cold Spring Harbor Laboratory Methods for assessing probabilistic measures of clinical outcome using genomic profiling
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
WO2007073478A2 (en) 2005-12-19 2007-06-28 Genizon Biosciences Inc. Genemap of the human genes associated with crohn's disease
EP1975255A2 (en) 2006-01-11 2008-10-01 Neocodex, S.L. Method and apparatus for the determination of genetic associations
US20070196850A1 (en) 2006-01-27 2007-08-23 University Of Washington Identification of aging genes through large-scale analysis
US8340950B2 (en) 2006-02-10 2012-12-25 Affymetrix, Inc. Direct to consumer genotype-based products and services
US7702468B2 (en) 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
WO2007133506A2 (en) 2006-05-09 2007-11-22 University Of Louisville Research Foundation , Inc. Personalized medicine management software
US8372584B2 (en) 2006-06-14 2013-02-12 The General Hospital Corporation Rare cell analysis using sample splitting and DNA tags
US8579811B2 (en) 2006-09-19 2013-11-12 3M Innovative Properties Company Medical diagnosis derived from patient drug history data
WO2008011046A2 (en) 2006-07-17 2008-01-24 The H.Lee Moffitt Cancer And Research Institute, Inc. Computer systems and methods for selecting subjects for clinical trials
US8122073B2 (en) 2006-09-29 2012-02-21 The Invention Science Fund I Computational systems for biomedical data
US7809660B2 (en) 2006-10-03 2010-10-05 International Business Machines Corporation System and method to optimize control cohorts using clustering algorithms
US20090137402A1 (en) 2006-10-11 2009-05-28 San Ming Wang Ditag genome scanning technology
EP1918837A1 (en) 2006-10-31 2008-05-07 F. Hoffmann-La Roche AG Method for processing a chronological sequence of measurements of a time dependent parameter
US20080131887A1 (en) 2006-11-30 2008-06-05 Stephan Dietrich A Genetic Analysis Systems and Methods
WO2008070144A2 (en) 2006-12-06 2008-06-12 Duke University Imprinted genes and disease
AU2008205330B2 (en) 2007-01-08 2014-07-03 Government Of The Usa, As Represented By The Secretary, Department Of Health And Human Services SLCO1B3 genotype
US8050870B2 (en) 2007-01-12 2011-11-01 Microsoft Corporation Identifying associations using graphical models
US8099298B2 (en) 2007-02-14 2012-01-17 Genelex, Inc Genetic data analysis and database tools
EP2128275A4 (en) 2007-02-23 2010-12-08 Progenika Biopharma Sa "IN VITRO" GENOTYPING METHOD AND PRODUCT HAVING ANTI-AGING MEDICINE APPLICATIONS
WO2008108964A2 (en) 2007-03-02 2008-09-12 The Ohio State University Research Foundation Death associated protein kinase 1 (dapk1) and uses thereof for the treatment of chronic lymphocytic leukemia
US20080228698A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
US8140270B2 (en) 2007-03-22 2012-03-20 National Center For Genome Resources Methods and systems for medical sequencing analysis
WO2008136989A2 (en) 2007-04-30 2008-11-13 The Ohio State University Research Foundation Polymorphisms in genes affecting sod2-related disorders and uses thereof
US20080281819A1 (en) 2007-05-10 2008-11-13 The Research Foundation Of State University Of New York Non-random control data set generation for facilitating genomic data processing
AU2008263384B2 (en) 2007-06-13 2014-08-28 Decode Genetics Ehf Genetic variants on CHR 15Q24 as markers for use in diagnosis, prognosis and treatment of exfoliation syndrome and glaucoma
PL2557520T3 (pl) 2007-07-23 2021-10-11 The Chinese University Of Hong Kong Określanie zaburzenia równowagi sekwencji kwasu nukleinowego
US7979215B2 (en) 2007-07-30 2011-07-12 Agilent Technologies, Inc. Methods and systems for evaluating CGH candidate probe nucleic acid sequences
JP5425793B2 (ja) 2007-10-12 2014-02-26 ペイシェンツライクミー, インコーポレイテッド 患者のコミュニティのプロファイルに基づく病状および転帰の個人管理ならびに比較
WO2009047809A2 (en) 2007-10-12 2009-04-16 Decode Genetics Ehf Sequence variants for inferring human pigmentation patterns
US8589437B1 (en) 2007-10-15 2013-11-19 23Andme, Inc. De-identification and sharing of genetic data
US8510057B1 (en) 2007-10-15 2013-08-13 23Andme, Inc. Summarizing an aggregate contribution to a characteristic for an individual
US20110004616A1 (en) 2007-10-31 2011-01-06 National Institute Of Agrobiological Sciences Base sequence determination program, base sequence determination device, and base sequence determination method
US8996318B2 (en) 2007-12-28 2015-03-31 Pioneer Hi-Bred International, Inc. Using oligonucleotide microarrays to analyze genomic differences for the prediction of heterosis
US20090198519A1 (en) 2008-01-31 2009-08-06 Mcnamar Richard Timothy System for gene testing and gene research while ensuring privacy
WO2009101639A1 (en) 2008-02-14 2009-08-20 Decode Genetics Ehf. Susceptibility variants for lung cancer
WO2009105591A2 (en) 2008-02-19 2009-08-27 The Regents Of The University Of California Methods and systems for genome-scale kinetic modeling
WO2009108918A2 (en) 2008-02-29 2009-09-03 John Boyce Methods and systems for social networking based on nucleic acid sequences
WO2009111581A1 (en) 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
US20090307180A1 (en) 2008-03-19 2009-12-10 Brandon Colby Genetic analysis
US20090240441A1 (en) 2008-03-20 2009-09-24 Helicos Biosciences Corporation System and method for analysis and presentation of genomic data
US8731956B2 (en) 2008-03-21 2014-05-20 Signature Genomic Laboratories Web-based genetics analysis
EP2297338A2 (en) 2008-05-30 2011-03-23 Ordway Research Institute, Inc. Methods for disease therapy
US8639446B1 (en) 2008-06-24 2014-01-28 Trigeminal Solutions, Inc. Technique for identifying association variables
US20110111419A1 (en) 2008-07-04 2011-05-12 deCODE Geneties ehf. Copy Number Variations Predictive of Risk of Schizophrenia
EP2313525A2 (en) 2008-07-07 2011-04-27 Decode Genetics EHF Genetic variants for breast cancer risk assessment
US20120122698A1 (en) 2008-07-07 2012-05-17 Decode Genetics Ehf. Genetic Variants Predictive of Cancer Risk in Humans
JP2011530306A (ja) 2008-08-12 2011-12-22 ディコーデ ジェネテクス イーエイチエフ 甲状腺癌のリスクアセスメントに有用な遺伝的変異
US20110212855A1 (en) 2008-08-15 2011-09-01 Decode Genetics Ehf. Genetic Variants Predictive of Cancer Risk
US8645343B2 (en) 2008-08-26 2014-02-04 23Andme, Inc. Processing data from genotyping chips
US7917438B2 (en) 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US20140200824A1 (en) 2008-09-19 2014-07-17 University Of Pittsburgh Of The Commonwealth System Of Higher Education K-partite graph based formalism for characterization of complex phenotypes in clinical data analyses and disease outcome prognosis
PT2334812T (pt) 2008-09-20 2017-03-29 Univ Leland Stanford Junior ¿diagnóstico não invasivo de aneuploidia fetal por sequenciação
EP2350900A4 (en) 2008-10-14 2014-10-15 Bioaccel SYSTEM AND METHOD FOR DETECTING AN ALLELY STR GENOTYPS FROM SNPS
NZ572036A (en) 2008-10-15 2010-03-26 Nikola Kirilov Kasabov Data analysis and predictive systems and related methodologies
US20100281401A1 (en) 2008-11-10 2010-11-04 Signature Genomic Labs Interactive Genome Browser
US20110287946A1 (en) 2008-11-26 2011-11-24 Decode Genetics Ehf. Genetic Variants Useful for Risk Assessment of Thyroid Cancer
WO2010067381A1 (en) 2008-12-12 2010-06-17 Decode Genetics Ehf Genetic variants as markers for use in diagnosis, prognosis and treatment of eosinophilia, asthma, and myocardial infarction
WO2010077336A1 (en) 2008-12-31 2010-07-08 23Andme, Inc. Finding relatives in a database
NZ595918A (en) 2009-04-03 2013-07-26 Decode Genetics Ehf Genetic markers for risk management of atrial fibrillation and stroke
US20130035954A1 (en) 2009-05-07 2013-02-07 Pathway Genomics Genomics-based alerting systems
CA2759851A1 (en) 2009-05-08 2010-11-11 Decode Genetics Ehf. Genetic variants contributing to risk of prostate cancer
CA2767360A1 (en) 2009-07-10 2011-01-13 Decode Genetics Ehf. Genetic markers associated with risk of diabetes mellitus
US20110202486A1 (en) 2009-07-21 2011-08-18 Glenn Fung Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
US8639639B2 (en) 2009-08-31 2014-01-28 Bhagwan Mahavir Medical Research Centre Predicting possible outcomes in multi-factored diseases
US8315957B2 (en) 2009-09-01 2012-11-20 Microsoft Corporation Predicting phenotypes using a probabilistic predictor
US20120215459A1 (en) 2009-09-04 2012-08-23 Marianne Stef High throughput detection of genomic copy number variations
WO2011050076A1 (en) 2009-10-20 2011-04-28 Genepeeks, Inc. Methods and systems for pre-conceptual prediction of progeny attributes
WO2011050341A1 (en) 2009-10-22 2011-04-28 National Center For Genome Resources Methods and systems for medical sequencing analysis
EP2494069B1 (en) 2009-10-30 2013-10-02 Roche Diagniostics GmbH Method for detecting balanced chromosomal aberrations in a genome
EP2328126A1 (en) 2009-11-27 2011-06-01 Technical University of Denmark Genome-wide association study identifying determinants of facial characteristics for facial image generation
US9798855B2 (en) 2010-01-07 2017-10-24 Affymetrix, Inc. Differential filtering of genetic data
KR102042253B1 (ko) 2010-05-25 2019-11-07 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
WO2011161700A1 (en) 2010-06-22 2011-12-29 Decode Genetics Ehf Genetic markers for risk management of vascular disease
US20120016594A1 (en) 2010-07-02 2012-01-19 Coriell Institute For Medical Research, Inc. Method for translating genetic information for use in pharmacogenomic molecular diagnostics and personalized medicine research
WO2012006291A2 (en) 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
PT2591125T (pt) * 2010-07-09 2018-05-09 Cergentis B V Estratégias 3-d de sequenciação de regiões genómicas de interesse
EP2601609B1 (en) 2010-08-02 2017-05-17 Population Bio, Inc. Compositions and methods for discovery of causative mutations in genetic disorders
US9141755B2 (en) 2010-08-26 2015-09-22 National Institute Of Biomedical Innovation Device and method for selecting genes and proteins
WO2012027572A2 (en) * 2010-08-27 2012-03-01 Genentech, Inc. Methods for nucleic acid capture and sequencing
WO2012031033A2 (en) 2010-08-31 2012-03-08 Lawrence Ganeshalingam Method and systems for processing polymeric sequence data and related information
US20120078901A1 (en) 2010-08-31 2012-03-29 Jorge Conde Personal Genome Indexer
WO2012034030A1 (en) 2010-09-09 2012-03-15 Omicia, Inc. Variant annotation, analysis and selection tool
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
US20130316915A1 (en) * 2010-10-13 2013-11-28 Aaron Halpern Methods for determining absolute genome-wide copy number variations of complex tumors
JP5984822B2 (ja) 2010-10-21 2016-09-06 メイヨ・ファウンデーション・フォー・メディカル・エデュケーション・アンド・リサーチ 注意欠陥多動性障害を有する患者を処置するための薬物を選択する方法
US8700337B2 (en) 2010-10-25 2014-04-15 The Board Of Trustees Of The Leland Stanford Junior University Method and system for computing and integrating genetic and environmental health risks for a personal genome
US20120102054A1 (en) 2010-10-25 2012-04-26 Life Technologies Corporation Systems and Methods for Annotating Biomolecule Data
KR101325736B1 (ko) 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법
US20120110013A1 (en) 2010-10-28 2012-05-03 Jorge Conde Flexibly Filterable Visual Overlay Of Individual Genome Sequence Data Onto Biological Relational Networks
CN103314383A (zh) 2010-11-01 2013-09-18 皇家飞利浦电子股份有限公司 包括专有测试的特许使用费的自动化代理的体外诊断测试
WO2012066582A1 (en) 2010-11-18 2012-05-24 Decode Genetics Ehf Genetic risk factors of sick sinus syndrome
CN103477318B (zh) 2010-11-25 2019-01-29 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
WO2012085948A1 (en) 2010-12-21 2012-06-28 Decode Genetics Ehf Genetic variants useful for risk assessment of thyroid cancer
JP6066924B2 (ja) 2010-12-29 2017-01-25 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ解析法
US9534256B2 (en) 2011-01-06 2017-01-03 Wake Forest University Health Sciences Methods and compositions for correlating genetic markers with risk of aggressive prostate cancer
US20130296175A1 (en) 2011-01-13 2013-11-07 Illumina Inc. Genetic Variants as Markers for Use in Urinary Bladder Cancer Risk Assessment, Diagnosis, Prognosis and Treatment
US20140229495A1 (en) 2011-01-19 2014-08-14 Koninklijke Philips N.V. Method for processing genomic data
WO2012100216A2 (en) 2011-01-20 2012-07-26 Knome, Inc. Methods and apparatus for assigning a meaningful numeric value to genomic variants, and searching and assessing same
US20140040264A1 (en) 2011-02-04 2014-02-06 Hgh Tech Campus Method for estimation of information flow in biological networks
WO2012112720A2 (en) 2011-02-15 2012-08-23 The Ohio University Research Foundaton Methods for predicting cardiovascular risks and responsiveness to statin therapy using snps
US20120215463A1 (en) 2011-02-23 2012-08-23 The Mitre Corporation Rapid Genomic Sequence Homology Assessment Scheme Based on Combinatorial-Analytic Concepts
US20120236861A1 (en) 2011-03-09 2012-09-20 Annai Systems, Inc. Biological data networks and methods therefor
EP2686443A4 (en) 2011-03-17 2014-12-17 Decode Genetics Ehf GENETIC VARIANTS USEFUL IN ESTIMATING THE RISK OF THYROID CANCER
US20150370959A9 (en) 2011-04-13 2015-12-24 The Board Of Trustees Of The Leland Stanford Junior University Phased Whole Genome Genetic Risk In A Family Quartet
US8744982B2 (en) 2011-05-12 2014-06-03 University Of Utah Research Foundation Gene-specific prediction
EP2710152A4 (en) 2011-05-17 2015-04-08 Nat Ict Australia Ltd COMPUTER IMPLEMENTED METHOD AND SYSTEM FOR DETERMINING INTERCONNECTION OF THE DNA LOCI
US20150169828A1 (en) 2011-05-19 2015-06-18 Donald Spector Method and system for collecting medical data
US20130297221A1 (en) 2011-06-01 2013-11-07 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Accurate Construction Of Long Range Haplotype
WO2012168815A2 (en) 2011-06-06 2012-12-13 Koninklijke Philips Electronics N.V. Method for assembly of nucleic acid sequence data
WO2012177774A2 (en) 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
US8718950B2 (en) 2011-07-08 2014-05-06 The Medical College Of Wisconsin, Inc. Methods and apparatus for identification of disease associated mutations
EP2546674B1 (en) 2011-07-15 2014-12-31 Airbus DS GmbH Plarform relative navigation using range measurements
WO2013019987A1 (en) 2011-08-03 2013-02-07 Ingenuity Systems, Inc. Methods and systems for biological data analysis
US9898687B2 (en) 2011-08-03 2018-02-20 Trigeminal Solutions, Inc. Technique for identifying association variables
WO2013023220A2 (en) 2011-08-11 2013-02-14 Life Technologies Corporation Systems and methods for nucleic acid-based identification
CN102952854B (zh) 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN102952855B (zh) 2011-08-26 2015-05-20 深圳华大基因科技服务有限公司 遗传图谱构建方法和装置、单体型分析方法和装置
US8793245B2 (en) 2011-09-22 2014-07-29 Patrick Kwete Personalized medical treatment provision software
CA2812342C (en) 2011-09-26 2015-04-07 John TRAKADIS Method and system for genetic trait search based on the phenotype and the genome of a human subject
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130091126A1 (en) 2011-10-11 2013-04-11 Life Technologies Corporation Systems and methods for analysis and interpretation of nucleic acid sequence data
CA2852665A1 (en) 2011-10-17 2013-04-25 Good Start Genetics, Inc. Analysis methods
CN104136628A (zh) 2011-10-28 2014-11-05 深圳华大基因医学有限公司 一种检测染色体微缺失和微重复的方法
US9773091B2 (en) 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US20140359422A1 (en) 2011-11-07 2014-12-04 Ingenuity Systems, Inc. Methods and Systems for Identification of Causal Genomic Variants
KR101922129B1 (ko) 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
EP2613278A2 (en) 2011-12-05 2013-07-10 Koninklijke Philips Electronics N.V. Retroactive extraction of clinically relevant information from patient sequencing data for clinical decision support
US9734283B2 (en) 2011-12-30 2017-08-15 Washington State University Genomic features associated with epigenetic control regions and transgenerational inheritance of epimutations
US20130184999A1 (en) 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
CN103198236B (zh) 2012-01-06 2017-02-15 深圳华大基因股份有限公司 Cyp450基因型别数据库及基因分型、酶活性鉴定方法
US20130212125A1 (en) 2012-01-24 2013-08-15 The Board Of Regents Of The University Of Oklahoma Bioinformatics search tool system for retrieving and summarizing genotypic and phenotypic data for diagnosing patients
WO2013119562A1 (en) 2012-02-06 2013-08-15 Mycare, Llc Methods for searching genomic databases
US20160253770A1 (en) 2012-02-11 2016-09-01 Yougene Corp Systems and methods for genetic testing algorithms
US20130246033A1 (en) 2012-03-14 2013-09-19 Microsoft Corporation Predicting phenotypes of a living being in real-time
US20130245958A1 (en) 2012-03-15 2013-09-19 Siemens Aktiengesellschaft Accurate comparison and validation of single nucleotide variants
US9552458B2 (en) 2012-03-16 2017-01-24 The Research Institute At Nationwide Children's Hospital Comprehensive analysis pipeline for discovery of human genetic variation
US20130261984A1 (en) 2012-03-30 2013-10-03 Illumina, Inc. Methods and systems for determining fetal chromosomal abnormalities
US20130268290A1 (en) 2012-04-02 2013-10-10 David Jackson Systems and methods for disease knowledge modeling
EA038600B1 (ru) 2012-04-02 2021-09-21 Берг Ллк Основанные на клетках перекрестные анализы и их применение
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
KR101795124B1 (ko) 2012-04-05 2017-12-01 비지아이 다이어그노시스 씨오., 엘티디. 복제 수 변이를 검측하기 위한 방법 및 시스템
EP3178945B1 (en) 2012-04-06 2018-10-17 The Chinese University Of Hong Kong Method of analyzing a biological sample from a female subject pregnant with a fetus
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
CN103374518B (zh) * 2012-04-12 2018-03-27 维里纳塔健康公司 拷贝数变异的检测和分类
EP2844771A4 (en) * 2012-05-04 2015-12-02 Complete Genomics Inc METHOD FOR DETERMINING THE ABSOLUTE GENOME-WIDE COPY COUNTER CHANGES OF COMPLEX TUMORS
KR101987477B1 (ko) 2012-05-07 2019-06-10 엘지전자 주식회사 바이오마커 발굴 방법
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US20130345066A1 (en) 2012-05-09 2013-12-26 Life Technologies Corporation Systems and methods for identifying sequence variation
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
WO2013177581A2 (en) 2012-05-24 2013-11-28 University Of Washington Through Its Center For Commercialization Whole genome sequencing of a human fetus
US9201916B2 (en) 2012-06-13 2015-12-01 Infosys Limited Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud
CA2878455C (en) 2012-07-06 2020-12-22 Nant Holdings Ip, Llc Healthcare analysis stream management
US9092401B2 (en) 2012-10-31 2015-07-28 Counsyl, Inc. System and methods for detecting genetic variation
CN104541276A (zh) * 2012-08-07 2015-04-22 皇家飞利浦有限公司 使用基于树的空间数据结构对基因数据集的群体分类
EP2882867A1 (en) 2012-08-10 2015-06-17 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
WO2014026152A2 (en) 2012-08-10 2014-02-13 Assurerx Health, Inc. Systems and methods for pharmacogenomic decision support in psychiatry
EP2891099A4 (en) 2012-08-28 2016-04-20 Broad Inst Inc DETECTION OF VARIANTS IN SEQUENCING DATA AND CALIBRATION
US9449143B2 (en) 2012-08-28 2016-09-20 Inova Health System Ancestral-specific reference genomes and uses thereof
GB2506523A (en) 2012-08-31 2014-04-02 Real Time Genomics Inc A computerised assignment of genomic sequence values based on multiple reads and probabilistic analysis
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP4036247B1 (en) * 2012-09-04 2024-04-10 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
WO2014039729A1 (en) 2012-09-05 2014-03-13 Stamatoyannopoulos John A Methods and compositions related to regulation of nucleic acids
WO2014039875A1 (en) 2012-09-06 2014-03-13 Ancestry.Com Dna, Llc Using haplotypes to infer ancestral origins for recently admixed individuals
US20140089009A1 (en) 2012-09-27 2014-03-27 Wobblebase, Inc. Method for Personal Genome Data Management
WO2014052909A2 (en) 2012-09-27 2014-04-03 The Children's Mercy Hospital System for genome analysis and genetic disease diagnosis
US20140088942A1 (en) 2012-09-27 2014-03-27 Ambry Genetics Molecular genetic diagnostic system
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
GB201217888D0 (en) 2012-10-05 2012-11-21 Univ Leuven Kath High-throughput genotyping by sequencing of single cell
WO2014058890A1 (en) 2012-10-08 2014-04-17 Spiral Genetics Inc. Methods and systems for identifying, from read symbol sequences, variations with respect to a reference symbol sequence
KR101419753B1 (ko) 2012-10-16 2014-07-17 안형준 개인 단일 염기 다형성에 기반한 개인별 부작용 최소화 약물 검색 시스템 및 그 방법
US9916416B2 (en) 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
EP2912587A4 (en) 2012-10-24 2016-12-07 Complete Genomics Inc GENOME EXPLORATION SYSTEM FOR TREATING AND PRESENTING NUCLEOTIDE VARIATIONS IN GENOMIC SEQUENCE DATA
HUP1200622A2 (en) 2012-10-30 2014-05-28 Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem Method and computer program product for genotype classification
US9836576B1 (en) 2012-11-08 2017-12-05 23Andme, Inc. Phasing of unphased genotype data
US20140143188A1 (en) 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
WO2014080323A1 (en) 2012-11-26 2014-05-30 Koninklijke Philips N.V. Diagnostic genetic analysis using variant-disease association with patient-specific relevance assessment
WO2014081456A1 (en) 2012-11-26 2014-05-30 Illumina, Inc. Efficient comparison of polynucleotide sequences
US9218450B2 (en) 2012-11-29 2015-12-22 Roche Molecular Systems, Inc. Accurate and fast mapping of reads to genome
EP2929070A4 (en) 2012-12-05 2016-06-01 Genepeeks Inc SYSTEM AND METHOD FOR COMPUTERIZED PREDICTION OF THE EXPRESSION OF MONOGENIC PHENOTYPES
US9836577B2 (en) 2012-12-14 2017-12-05 Celmatix, Inc. Methods and devices for assessing risk of female infertility
US20140235456A1 (en) 2012-12-17 2014-08-21 Virginia Tech Intellectual Properties, Inc. Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci
US20150046191A1 (en) 2013-01-05 2015-02-12 Foundation Medicine, Inc. System and method for managing genomic information
WO2014110350A2 (en) 2013-01-11 2014-07-17 Oslo Universitetssykehus Hf Systems and methods for identifying polymorphisms
US20140222349A1 (en) 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
US9128861B2 (en) 2013-01-17 2015-09-08 Personalis, Inc. Methods and systems for genetic analysis
US9483610B2 (en) 2013-01-17 2016-11-01 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20160153032A9 (en) 2013-01-25 2016-06-02 Signature Diagnostics Ag Method for predicting a manifestation of an outcome measure of a cancer patient
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11031097B2 (en) 2013-01-28 2021-06-08 Hasso-Plattner Institut fuer Softwaresystemtechnik GmbH System for genomic data processing with an in-memory database system and real-time analysis
US10381106B2 (en) 2013-01-28 2019-08-13 Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh Efficient genomic read alignment in an in-memory database
WO2014121128A1 (en) 2013-02-01 2014-08-07 Life Technologies Corporation Methods, systems, and computer readable media for exchanging genomic and/or patient information
KR101770962B1 (ko) 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
US20140244556A1 (en) 2013-02-27 2014-08-28 Abdul Saleh Methods for and apparatus generating automated pharmaco genetics correlation
WO2014132497A1 (ja) 2013-02-28 2014-09-04 株式会社日立ハイテクノロジーズ データ解析装置、及びその方法
EP2962270A4 (en) 2013-03-01 2016-08-24 Actx Inc CLOUD-ARTIGER MEDICAL INFORMATION SERVICE
AU2014229498B2 (en) 2013-03-13 2018-07-05 Fdna Inc. Systems, methods, and computer-readable media for identifying when a subject is likely to be affected by a medical condition
WO2014152950A1 (en) 2013-03-14 2014-09-25 Wake Forest University Health Sciences Methods and compositions for correlating genetic markers with risk of aggressive prostate cancer
CN105556513A (zh) 2013-03-14 2016-05-04 昂托米克斯公司 用于个性化临床决策支持工具的系统和方法
WO2014145234A2 (en) 2013-03-15 2014-09-18 Vigenetech, Inc. Systems and apparatus for integrated and comprehensive biomedical annotation of bioassay data
WO2014145503A2 (en) 2013-03-15 2014-09-18 Lieber Institute For Brain Development Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto
US20140278133A1 (en) 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
US10385394B2 (en) 2013-03-15 2019-08-20 The Translational Genomics Research Institute Processes of identifying and characterizing X-linked disorders
US9418203B2 (en) 2013-03-15 2016-08-16 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
AU2014218418A1 (en) 2013-03-15 2015-10-01 Ancestry.Com Dna, Llc Family networks
US20140278461A1 (en) 2013-03-15 2014-09-18 Memorial Sloan-Kettering Cancer Center System and method for integrating a medical sequencing apparatus and laboratory system into a medical facility
US20140303901A1 (en) 2013-04-08 2014-10-09 Ilan Sadeh Method and system for predicting a disease
US10354745B2 (en) 2013-04-17 2019-07-16 Wong Andrew Ka Ching Aligning and clustering sequence patterns to reveal classificatory functionality of sequences
EP3000088A4 (en) 2013-05-23 2018-06-27 Iphenotype LLC Method and system for maintaining or improving wellness
CN103336916B (zh) 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
EP3019865A4 (en) 2013-07-12 2017-04-05 Immuneering Corporation Systems, methods, and environment for automated review of genomic data to identify downregulated and/or upregulated gene expression indicative of a disease or condition
WO2015013191A1 (en) 2013-07-21 2015-01-29 Dana-Farber Cancer Institute, Inc. Methods, systems, apparatus and their optimization for effective clinical analysis and conveying results thereof
WO2015013657A2 (en) 2013-07-25 2015-01-29 Kbiobox Inc. Method and system for rapid searching of genomic data and uses thereof
US20150073724A1 (en) 2013-07-29 2015-03-12 Agilent Technologies, Inc Method for finding variants from targeted sequencing panels
EP3037548B1 (en) 2013-08-19 2019-03-13 Cipherome, Inc. Method and system for selecting drug on basis of individual protein damage information for preventing side effects of drug
US10036013B2 (en) 2013-08-19 2018-07-31 Abbott Molecular Inc. Next-generation sequencing libraries
EP3036712A4 (en) 2013-08-20 2017-04-19 The Ohio State Innovation Foundation Methods for predicting prognosis
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
US10460830B2 (en) 2013-08-22 2019-10-29 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
WO2015031689A1 (en) 2013-08-30 2015-03-05 Personalis, Inc. Methods and systems for genomic analysis
US20150066381A1 (en) 2013-09-03 2015-03-05 Seven Bridges Genomics Inc. Genomic pipeline editor with tool localization
KR101493982B1 (ko) 2013-09-26 2015-02-23 대한민국 품종인식 코드화 시스템 및 이를 이용한 코드화 방법
US20150095064A1 (en) 2013-09-27 2015-04-02 Orbicule Bvba Method for Storage and Communication of Personal Genomic or Medical Information
WO2015051275A1 (en) 2013-10-03 2015-04-09 Personalis, Inc. Methods for analyzing genotypes
ES2968644T3 (es) 2013-10-04 2024-05-13 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
US20150105270A1 (en) 2013-10-10 2015-04-16 Severe Adverse Event (Sae) Consortium Biomarkers for increased risk of drug-induced liver injury from exome sequencing studies
SG11201602903XA (en) 2013-10-18 2016-05-30 Seven Bridges Genomics Inc Methods and systems for genotyping genetic samples
WO2015058120A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2015058095A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for quantifying sequence alignment
WO2015061422A1 (en) 2013-10-22 2015-04-30 Athena Diagnostics, Inc. Pathogenicity scoring system for human clinical genetics
US9547749B2 (en) 2013-10-30 2017-01-17 St. Petersburg State University Visualization, sharing and analysis of large data sets
WO2015081115A1 (en) 2013-11-27 2015-06-04 Companion Dx Reference Lab, Llc Systems and methods for optimizing drug therapies
WO2015085147A1 (en) 2013-12-05 2015-06-11 The Broad Institute Inc. Polymorphic gene typing and somatic change detection using sequencing data
WO2015105771A1 (en) 2014-01-07 2015-07-16 The Regents Of The University Of Michigan Systems and methods for genomic variant analysis
JP2017510871A (ja) 2014-01-10 2017-04-13 セブン ブリッジズ ジェノミクス インコーポレイテッド リードマッピングにおける公知の対立遺伝子の使用のためのシステム及び方法
US20150254397A1 (en) 2014-01-11 2015-09-10 Cytognomix Inc Method of Validating mRNA Splciing Mutations in Complete Transcriptomes
EP3095054B1 (en) 2014-01-14 2022-08-31 Fabric Genomics, Inc. Methods and systems for genome analysis
US20160333411A1 (en) 2014-01-17 2016-11-17 Ruthie Harper Methods of weight analysis and uses thereof
WO2015112619A1 (en) 2014-01-22 2015-07-30 Adam Platt Methods and systems for detecting genetic mutations
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
US20150228041A1 (en) 2014-02-10 2015-08-13 Cure Forward Corp. Clinical trial recruitment platform driven by molecular profile
EP3105695B1 (en) 2014-02-13 2022-06-01 Illumina, Inc. Integrated consumer genomic services
US20170061070A1 (en) 2014-02-13 2017-03-02 The Children's Mercy Hospital Method and process for whole genome sequencing for genetic disease diagnosis
GB201402996D0 (en) 2014-02-20 2014-04-09 Vela Operations Pte Ltd Variant analysis in high-throughput sequencing applications
EP3111353A4 (en) 2014-02-26 2017-11-01 Nantomics, LLC Secured mobile genome browsing devices and methods therefor
EP3111352A4 (en) 2014-02-28 2017-08-30 Centre For Addiction And Mental Health Compositions and methods for the treatment and prevention of antipsychotic medication-induced weight gain
US20150248522A1 (en) 2014-02-28 2015-09-03 The Board of Trustees of the Leland Stanford Junior, University Method and System for Identification of Disease Causing Variants
US20150261913A1 (en) 2014-03-11 2015-09-17 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data
US20170169163A1 (en) 2014-03-20 2017-06-15 Ramot At Tel-Aviv University Ltd. Methods and systems for genome comparison
EP3125143A4 (en) 2014-03-24 2018-03-14 Kabushiki Kaisha Toshiba Method, device and program for generating reference genome data, method, device and program for generating differential genome data, and method, device and program for restoring data
WO2015148776A1 (en) 2014-03-27 2015-10-01 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
JP6198659B2 (ja) 2014-04-03 2017-09-20 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
US10528758B2 (en) 2014-05-02 2020-01-07 Koninklijke Philips N.V. Genomic informatics service
WO2015171457A1 (en) 2014-05-03 2015-11-12 The Regents Of The University Of California Methods of identifying biomarkers associated with or causative of the progression of disease, in particular for use in prognosticating primary open angle glaucoma
WO2015171660A1 (en) 2014-05-05 2015-11-12 Board Of Regents, The University Of Texas System Variant annotation, analysis and selection tool
WO2015173222A1 (en) 2014-05-12 2015-11-19 Roche Diagnostics Gmbh Rare variant calls in ultra-deep sequencing
GB201408687D0 (en) 2014-05-16 2014-07-02 Univ Leuven Kath Method for predicting a phenotype from a genotype
US10318704B2 (en) 2014-05-30 2019-06-11 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies
EP3598452B1 (en) 2014-05-30 2023-07-26 Sequenom, Inc. Chromosome representation determinations
WO2015191471A1 (en) 2014-06-09 2015-12-17 Georgetown University Telegenetics
WO2015191562A1 (en) 2014-06-09 2015-12-17 Revon Systems, Llc Systems and methods for health tracking and management
US20160098519A1 (en) 2014-06-11 2016-04-07 Jorge S. Zwir Systems and methods for scalable unsupervised multisource analysis
US20160314245A1 (en) 2014-06-17 2016-10-27 Genepeeks, Inc. Device, system and method for assessing risk of variant-specific gene dysfunction
US10046177B2 (en) 2014-06-18 2018-08-14 Elekta Ab System and method for automatic treatment planning
WO2015200869A1 (en) 2014-06-26 2015-12-30 10X Genomics, Inc. Analysis of nucleic acid sequences
US10665328B2 (en) 2014-06-30 2020-05-26 QIAGEN Redwood City, Inc. Methods and systems for interpretation and reporting of sequence-based genetic tests
KR20160010277A (ko) 2014-07-18 2016-01-27 에스케이텔레콤 주식회사 산모의 무세포 dna의 차세대 서열분석을 통한 태아의 단일유전자 유전변이의 예측방법
US10119167B2 (en) 2014-07-18 2018-11-06 Illumina, Inc. Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
WO2016025818A1 (en) 2014-08-15 2016-02-18 Good Start Genetics, Inc. Systems and methods for genetic analysis
AU2015311677A1 (en) 2014-09-05 2017-04-27 Nantomics, Llc Systems and methods for determination of provenance
AU2015314114B2 (en) 2014-09-12 2021-01-21 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data
CN104232777B (zh) * 2014-09-19 2016-08-24 天津华大基因科技有限公司 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
WO2016055971A2 (en) 2014-10-10 2016-04-14 Invitae Corporation Methods, systems and processes of de novo assembly of sequencing reads
CN107076729A (zh) 2014-10-16 2017-08-18 康希尔公司 变异体调用器
EP3207483A4 (en) 2014-10-17 2018-04-04 Ancestry.com DNA, LLC Ancestral human genomes
EP3210145A1 (en) 2014-10-21 2017-08-30 Barcelona Supercomputing Center-Centro Nacional de Supercomputación A computational method for the identification of variants in nucleic acid sequences
US10886005B2 (en) 2014-10-22 2021-01-05 Baylor College Of Medicine Identifying genes associated with a phenotype
CN107004068B (zh) 2014-11-25 2021-08-24 皇家飞利浦有限公司 基因组数据的安全传输
WO2016115273A1 (en) 2015-01-13 2016-07-21 10X Genomics, Inc. Systems and methods for visualizing structural variation and phasing information
NL2014199B1 (en) 2015-01-27 2017-01-06 Genalice B V A computer implemented method for generating a variant call file.
SG11201706087VA (en) 2015-01-30 2017-08-30 Rga Int Corp Devices and methods for diagnostics based on analysis of nucleic acids
EP3051450A1 (en) 2015-02-02 2016-08-03 Applied Maths Method of typing nucleic acid or amino acid sequences based on sequence analysis
EP3256606B1 (en) 2015-02-09 2019-05-22 10X Genomics, Inc. Systems and methods for determining structural variation
US20160239603A1 (en) 2015-02-18 2016-08-18 Michael James Brown Computer-implemented associations of nucleic and amino acid sequence polymorphisms with phenotypes.
WO2016139534A2 (en) 2015-03-02 2016-09-09 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
KR101974769B1 (ko) 2015-03-03 2019-05-02 난토믹스, 엘엘씨 앙상블-기반 연구 추천 시스템 및 방법
CA2978442A1 (en) 2015-03-04 2016-09-09 Veracyte, Inc. Methods for assessing the risk of disease occurrence or recurrence using expression level and sequence variant information
US10192026B2 (en) 2015-03-05 2019-01-29 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US20160273049A1 (en) 2015-03-16 2016-09-22 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
US20160281166A1 (en) 2015-03-23 2016-09-29 Parabase Genomics, Inc. Methods and systems for screening diseases in subjects
EP3274890A4 (en) 2015-03-23 2019-03-13 Private Access Inc. SYSTEM, METHOD AND DEVICE FOR IMPROVING CONSERVATION AND ENABLING THE WIDELY COMMON USE OF BIOINFORMATICS DATA
US9940266B2 (en) 2015-03-23 2018-04-10 Edico Genome Corporation Method and system for genomic visualization
CN116042833A (zh) 2015-03-26 2023-05-02 奎斯特诊断投资股份有限公司 比对和变体测序分析管线
US20160300013A1 (en) 2015-04-10 2016-10-13 Agilent Technologies, Inc. METHOD FOR SIMULTANEOUS DETECTION OF GENOME-WIDE COPY NUMBER CHANGES, cnLOH, INDELS, AND GENE MUTATIONS
GB2554591A (en) 2015-04-29 2018-04-04 Univ British Columbia Clinical support system and method
JP6995625B2 (ja) 2015-05-01 2022-01-14 ガーダント ヘルス, インコーポレイテッド 診断方法
CA2891830A1 (en) 2015-05-15 2016-11-15 Centre For Addiction And Mental Health Genetic markers for suicide risk and related methods
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CA2930597A1 (en) 2015-05-22 2016-11-22 The University Of British Columbia Methods for the graphical representation of genomic sequence data
US10275567B2 (en) 2015-05-22 2019-04-30 Seven Bridges Genomics Inc. Systems and methods for haplotyping
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
WO2016203457A1 (en) 2015-06-19 2016-12-22 Koninklijke Philips N.V. Efficient clinical trial matching
US20160371431A1 (en) 2015-06-22 2016-12-22 Counsyl, Inc. Methods of predicting pathogenicity of genetic sequence variants
WO2017009372A2 (en) 2015-07-13 2017-01-19 Cartagenia Nv System and methodology for the analysis of genomic data obtained from a subject
AU2016293485B2 (en) 2015-07-13 2021-05-13 Ancestry.Com Dna, Llc Local genetic ethnicity determination system
JP6700376B2 (ja) 2015-07-29 2020-05-27 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 有意性が未知のバリアントに優先順位をつけるシステム及び方法
CA2994406A1 (en) 2015-08-06 2017-02-09 Arc Bio, Llc Systems and methods for genomic analysis
WO2017042831A2 (en) 2015-09-07 2017-03-16 Isense Solution Private Limited A system and method of measuring productivity and longevity of human beings based on analysis of their genes in a biological and functional context
JP6663483B2 (ja) 2015-09-10 2020-03-11 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 統合された臨床ケアのための情報科学プラットフォーム
WO2017049214A1 (en) 2015-09-18 2017-03-23 Omicia, Inc. Predicting disease burden from genome variants
WO2017065959A2 (en) 2015-09-25 2017-04-20 Veracyte, Inc. Methods and compositions that utilize transcriptome sequencing data in machine learning-based classification
US20170091382A1 (en) 2015-09-29 2017-03-30 Yotta Biomed, Llc. System and method for automating data generation and data management for a next generation sequencer
GB2543273A (en) 2015-10-12 2017-04-19 Leica Microsystems Cambridge Ltd Obtaining biological information and storing and searching biological information in a database
US20170116379A1 (en) 2015-10-26 2017-04-27 Aetna Inc. Systems and methods for dynamically generated genomic decision support for individualized medical treatment
US20170132362A1 (en) 2015-11-09 2017-05-11 Washington State University Novel machine learning approach for the identification of genomic features associated with epigenetic control regions and transgenerational inheritance of epimutations
CN110149807A (zh) 2015-11-10 2019-08-20 细胞结构公司 用于可视化合成基因组、微生物组和代谢组数据的平台
JP2019505934A (ja) 2015-12-12 2019-02-28 サイフェローム・インコーポレーテッド コンピューターにより実施される集団に対する薬物安全性の評価
KR101693504B1 (ko) 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
WO2017120556A1 (en) 2016-01-07 2017-07-13 The Children's Mercy Hospital A system for determining diplotypes
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US20170213127A1 (en) 2016-01-24 2017-07-27 Matthew Charles Duncan Method and System for Discovering Ancestors using Genomic and Genealogic Data
US10460829B2 (en) 2016-01-26 2019-10-29 Seven Bridges Genomics Inc. Systems and methods for encoding genetic variation for a population
MX2018009823A (es) 2016-02-12 2019-02-20 Regeneron Pharma Metodos y sistemas para la deteccion de cariotipos anormales.
MX2018011941A (es) 2016-03-29 2019-03-28 Regeneron Pharma Sistema de analisis de variantes geneticas y fenotipos y sus metodos de uso.

Also Published As

Publication number Publication date
EP3298523B1 (en) 2020-08-26
NZ737005A (en) 2020-03-27
AU2016263192B2 (en) 2019-07-25
WO2016187051A1 (en) 2016-11-24
JP2018523198A (ja) 2018-08-16
RU2017143983A3 (ja) 2020-02-03
RU2746477C2 (ru) 2021-04-14
KR20180008651A (ko) 2018-01-24
EP3298523A1 (en) 2018-03-28
RU2017143983A (ru) 2019-06-18
BR112017024742A2 (pt) 2018-11-13
HK1252103A1 (zh) 2019-05-17
MX2017014659A (es) 2018-03-07
IL255458B (en) 2022-04-01
KR102307872B1 (ko) 2021-10-05
CN107810502B (zh) 2022-02-11
US11568957B2 (en) 2023-01-31
US10395759B2 (en) 2019-08-27
US20160342733A1 (en) 2016-11-24
AU2016263192A1 (en) 2017-11-30
US20200035326A1 (en) 2020-01-30
CA2986117C (en) 2020-02-25
ZA201707665B (en) 2020-05-27
CN107810502A (zh) 2018-03-16
CA2986117A1 (en) 2016-11-24
SG11201708787TA (en) 2017-12-28
IL255458A (en) 2018-01-31

Similar Documents

Publication Publication Date Title
JP6718885B2 (ja) コピー数多型検出のための方法及びシステム
Cooke et al. A unified haplotype-based method for accurate and comprehensive variant calling
Gaudillo et al. Machine learning approach to single nucleotide polymorphism-based asthma prediction
KR102341129B1 (ko) 비정상적인 핵형을 검출하기 위한 방법 및 시스템
Chan et al. Evaluating imputation algorithms for low-depth genotyping-by-sequencing (GBS) data
Emily A survey of statistical methods for gene-gene interaction in case-control genome-wide association studies
Wang et al. Variational inference for coupled hidden markov models Applied to the Joint Detection of Copy Number Variations
Babadi et al. GATK-gCNV: a rare copy number variant discovery algorithm and its application to exome sequencing in the UK biobank
Almudevar et al. Utility of correlation measures in analysis of gene expression
CN111210873B (zh) 基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
Fan et al. Methods for Copy Number Aberration Detection from Single-cell DNA Sequencing Data
Guha et al. Bayesian hidden Markov modeling of array CGH data
Niehus et al. PopDel identifies medium-size deletions jointly in tens of thousands of genomes
Ji et al. Statistical models for DNA copy number variation detection using read‐depth data from next generation sequencing experiments
Lewin et al. Bayesian methods for gene expression analysis
Wang et al. Cnvabnn: an adaBoost algorithm and neural networks-based detection of copy number variations from NGS data
Fu Differential Dependency Network and Data Integration for Detecting Network Rewiring and Biomarkers
Vo et al. Shrinkage estimation of gene interaction networks in single-cell RNA sequencing data
Chan EVALUATING AND CREATING GENOMIC TOOLS FOR CASSAVA BREEDING
Aloqaily et al. Feature prioritisation on big genomic data for analysing gene-gene interactions
Chaba et al. A Comparison of Parametric and Semi-Parametric Models for Microarray Data Analysis
Valente et al. Nonparametric Reduced-Rank Regression for Multi-SNP, Multi-Trait Association Mapping
Taliun Efficient Whole Genome Haplotype Block Partitioning using Linkage Disequilibrium
Wong Biomarker Discovery in Exome Data
Ha Probabilistic approaches for profiling copy number aberrations and loss of heterozygosity landscapes in cancer genomes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6718885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250