JP6066924B2 - Dna配列のデータ解析法 - Google Patents

Dna配列のデータ解析法 Download PDF

Info

Publication number
JP6066924B2
JP6066924B2 JP2013547551A JP2013547551A JP6066924B2 JP 6066924 B2 JP6066924 B2 JP 6066924B2 JP 2013547551 A JP2013547551 A JP 2013547551A JP 2013547551 A JP2013547551 A JP 2013547551A JP 6066924 B2 JP6066924 B2 JP 6066924B2
Authority
JP
Japan
Prior art keywords
sequence
sequences
unique
lead
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013547551A
Other languages
English (en)
Other versions
JP2014505935A (ja
Inventor
スリラム,シュリーダラン
エランゴ,ネィヴィン
サストゥリー−デント,ラクシュミ
ペトリノ,ジョセフ
Original Assignee
ダウ アグロサイエンシィズ エルエルシー
ダウ アグロサイエンシィズ エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ダウ アグロサイエンシィズ エルエルシー, ダウ アグロサイエンシィズ エルエルシー filed Critical ダウ アグロサイエンシィズ エルエルシー
Publication of JP2014505935A publication Critical patent/JP2014505935A/ja
Application granted granted Critical
Publication of JP6066924B2 publication Critical patent/JP6066924B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

(関連出願の相互参照)
本願は、2010年12月29日に出願された米国仮特許出願第61/428,191号および2011年7月1日に出願された米国仮特許出願第61/503,784号(これらの全開示は、参照により援用される)に基づく優先権を主張する。
ジンクフィンガーヌクレアーゼ(ZFN)は、ゲノム中の特定の配列でDNA鎖を切断して二本鎖切断端を生成するように遺伝子工学により作製され得る酵素である。二本鎖切断端が修復される1つのプロセスは、非相同末端結合(NHEJ)である。NHEJ媒介性修復は、ZFN切断部位においてランダムな塩基対の付加および/または欠失をもたらし、ZFNによって誘導されるゲノム改変が生じる。その改変は、生物学的解析のために使用され得る、異なってコードされるDNA鎖を生成し得る。ZFNによって誘導されたゲノム改変の解析は、ゲノム中の特定の切断位置/部位における特定のZFNの相対的な有効性を示唆し得る。
様々なツールを使用することにより、DNAの配列を切断または改変できる。例えば、9330 Zionsville Road in Indianapolis,Indiana 46268に存在するDow Agrosciencesから入手可能なEXZACT Precision Technologyブランドの機器は、ゲノム改変のための最先端の万能かつロバストなツールキットである。それは、ZFNのデザインおよび使用に基づくものである。
新しい配列決定技術の急速な発展は、ゲノムワイドな変異のスキャン、新しいゲノムの構築およびトランスクリプトミクス研究を含む多くの生物学的応用法のスケールおよび解明を実質的に拡大する。製造されているすべての次世代シーケンシング(NGS)プラットフォーム(Roche Diagnostics Corp.,ILLUMINAから入手可能なRoche454ブランドのシーケンシングプラットフォームおよび/またはIllumina,Inc.から入手可能なSOLEXAブランドのシーケンシングプラットフォームならびにApplied Biosystemsから入手可能なSOLiDブランドのシーケンシングプラットフォームを含む)が、1装置1日あたりギガ塩基対(Gbp)の桁数のデータを生成することができる。Roche454ブランドのシーケンシングプラットフォームは、長い「リード(read)」配列を生成し、一方、Illumina(Solexa)およびSOLiDブランドのシーケンサーは、短いリードシーケンシングプラットフォームである(典型的には、約36〜100bp)。次世代シーケンシング(NGS)技術では、大量の配列決定データの生成が可能であり、高レベルの検出感度が提供され、多数のサンプルの解析が可能である。
本開示の例示的な実施形態において、ジンクフィンガーヌクレアーゼの標的化活性を定量化する解析システムおよび計算方法が提供される。特定のゲノム系における特定の標的において多数のZFNをスクリーニングおよびランク付けするために使用され得るシステムおよび方法が提供される。そのシステムおよび方法は、任意の技術(例示的な技術としては、タンパク質もしくは小分子に特異的な方法またはその両方の組み合わせあるいは物理的方法が挙げられる)を使用して行われる任意のゲノム改変(例示的なゲノム改変としては、ヌクレオチド挿入/欠失、遺伝子付加、点変異およびメチル化が挙げられる)を確認するために使用され得る。さらに、そのシステムおよび方法は、ゲノム改変の機能的な読み出しを可能にする翻訳スクリプト(すなわち、改変されたゲノムのタンパク質産物)を提供するようにさらに改変され得る。
本開示の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード(読取り)配列を特定する工程、その複数の高品質リード配列から複数のユニーク(独特の、普通でない)リード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。
本開示の別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、その複数のユニークリード配列を参照サンプルに対応する参照配列データとアライメント(配列比較)した後、高品質アライメントを計算する工程を包含する。
本開示のさらに別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、アライメントされたユニークリード配列の定性的解析を行う工程を包含する。
本開示のなおも別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、アライメントされたユニークリード配列の定量的解析を包含する。
本開示のなおもさらに別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、アライメントされたユニークリード配列を可視化する工程を包含する。
本開示のさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、その複数のユニークリード配列の各々と参照配列とのアライメントを計算する工程を包含する。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、その配列データに関する信頼区間データを電子的に受信する工程(その信頼区間データは、複数の高品質リード配列を特定するために少なくとも部分的に使用される)を包含する。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含し、ここで、その複数の配列の各々は、植物ゲノムの少なくとも一部を記述している。
本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含し、ここで、1またはそれ以上のバーコードを記述しているバーコード情報が、配列データに伴って電子的に受信される。
本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含し、ここで、1またはそれ以上のバーコードを記述しているバーコード情報が、配列データに伴って電子的に受信され、配列データを少なくとも2つの群のうちの1つと関連づける工程が、配列データに付随するバーコード情報を読み出す工程、および1またはそれ以上のバーコードに従って配列データを関連づける工程を包含する。
本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、配列データを少なくとも2つの群のうちの1つと関連づける工程を包含する。
本開示の別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。
本開示のさらに別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能であり、ここで、その計算モジュールはさらに、その複数の高品質リード配列から高品質アライメントを計算するように動作可能である。
本開示のなおも別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。そのシステムはさらに、アライメントされたユニークリード配列の定性的解析を行うモジュールを備える。
本開示のなおもさらに別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。そのシステムはさらに、アライメントされたユニークリード配列の定性的解析を行うモジュールを備える。
本開示のなおもさらに別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。そのシステムはさらに、アライメントされたユニークリード配列を可視化するモジュールを備える。
本開示のさらなる例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能であり、ここで、その計算モジュールはさらに、複数の高品質アライメントの各々と参照配列とのアライメントを計算するように動作可能である。
本開示のさらなる例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能であり、ここで、その計算モジュールはさらに、配列データを少なくとも2つの群のうちの1つと関連づける。
本開示の別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程(その複数の配列は、植物ゲノムの少なくとも一部を記述しており、その複数の配列は、その配列を切断する1またはそれ以上のジンクフィンガーヌクレアーゼに事前に曝露されている)、その配列データに関する信頼区間データを電子的に受信する工程、その信頼区間データに少なくとも部分的に基づいてその複数の配列の中から複数の高品質リード配列を特定する工程、その1またはそれ以上の高品質リード配列からユニークリード配列を抽出する工程、およびそのユニークリード配列を参照サンプルに対応する配列データとアライメントする工程を包含する。
本開示の別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程(その複数の配列は、植物ゲノムの少なくとも一部を記述しており、その複数の配列は、その配列を切断する1またはそれ以上のジンクフィンガーヌクレアーゼに事前に曝露されている)、その配列データに関する信頼区間データを電子的に受信する工程、その信頼区間データに少なくとも部分的に基づいてその複数の配列の中から複数の高品質リード配列を特定する工程、その1またはそれ以上の高品質リード配列からユニークリード配列を抽出する工程、およびそのユニークリード配列を参照サンプルに対応する配列データとアライメントする工程を包含する。その方法はさらに、その配列データに付随するバーコード情報を電子的に受信する工程、およびそのバーコード情報に少なくとも部分的に基づいて配列データを少なくとも(a least)2つの群のうちの1つと関連づける工程を包含する。
本開示のさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列より少なくとも2桁少ない)を包含する。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列より少なくとも2桁少ない)を包含し、ここで、第2の数の配列は、第1の数の配列よりも少なくとも4桁少ない。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列より少なくとも2桁少ない)を包含し、ここで、その配列に対する修復の第1の特徴は、標的切断領域中の挿入数および欠失数のうちの少なくとも1つの基準を含む。
本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列より少なくとも2桁小さい)を包含し、ここで、その第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程は、それぞれの配列を切断するために使用されたZFNに基づいて第1の数の配列を複数の群に分ける工程、第1の数の配列中の複数の高品質リード配列を特定する工程(その複数の高品質リード配列は、第1の数の配列より少なく、かつ第2の数の配列より多い第3の数の配列を有する)、第3の数の配列から複数のユニークリード配列を特定する工程(その複数のユニークリード配列は、第3の数の配列より少なく、かつ第2の数の配列より多いまたは少ない第4の数の配列を有する)およびその第4の数の配列の各々を参照配列と比較して、複数の高品質アライメント配列を特定する工程を包含する。
本開示のさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列の1パーセント未満である)を包含する。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列の1パーセント未満である)を包含し、ここで、第2の数の配列は、第1の数の配列の0.1パーセント未満である。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列の1パーセント未満である)を包含し、ここで、第2の数の配列は、第1の数の配列の0.01パーセント未満である。
本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列の1パーセント未満である)を包含し、ここで、第2の数の配列は、第1の数の配列の0.01パーセント未満であり、第1の数の配列は、少なくとも100万個の配列である。
本開示のなおもさらに別の例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列の1パーセント未満である)を包含し、ここで、その配列に対する修復の第1の特徴は、標的切断領域中の挿入数および欠失数のうちの少なくとも1つの基準を含む。
本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第1の数の配列に関する配列データを電子的に受信する工程(その第1の数の配列は、複数のジンクフィンガーヌクレアーゼ(ZFN)によって切断された後に修復された複数の配列を含み、第1の数の配列の第1の部分は、第1のZFNによって切断された後に修復され、第1の数の配列の第2の部分は、第2のZFNによって切断された後に修復されている)、および第1の数の配列の部分群である第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程(その第2の数の配列は、その配列を切断するために使用されたZFNおよびその配列に対する修復の少なくとも1つの特徴に基づいて選択され、第2の数の配列は、第1の数の配列の1パーセント未満である)を包含し、ここで、第2の数の配列を参照配列に部分的に基づいて電子的に決定する工程は、それぞれの配列を切断するために使用されたZFNに基づいて第1の数の配列を複数の群に分ける工程、第1の数の配列中の複数の高品質リード配列を特定する工程(その複数の高品質リード配列は、第1の数の配列より少なく、かつ第2の数の配列より多い第3の数の配列を有する)、第3の数の配列から複数のユニークリード配列を特定する工程(その複数のユニークリード配列は、第3の数の配列より少なく、かつ第2の数の配列より多いまたは少ない第4の数の配列を有する)および第4の数の配列の各々をその参照配列と比較して、複数の高品質アライメント配列を特定する工程を包含する。
図面の詳細な説明は、添付の図について特に言及する。
図1は、本開示の実施形態に係るデータ解析の方法を示しているフローチャートである。 図2は、本開示の実施形態に係る図1のデータの前処理を示しているフローチャートである。 図3は、本開示の実施形態に係る図1のデータのアライメントを示しているフローチャートである。 図4は、本開示の実施形態に係る図1のデータの後処理を示しているフローチャートである。 図5は、本開示の実施形態に係るシーケンサーからデータ分析装置へのデータおよび資料のフローチャートである。 図6は、本開示の実施形態に係るデータ分析装置のシステムの略図である。 図7は、本開示の実施形態に係るバーコードを有する例示的な配列セットである。 図8Aは、本開示の実施形態に係るバーコードに従って配列を整理した図7の例示的な配列セットの図表である。 図8Bは、本開示の実施形態に係るユニーク配列に従って配列を整理した図7の例示的な配列セットの図表である。 図8Cは、ユニーク配列の各々に結びつけられた配列の数のカウントを含む図8Bの例示的な配列セットの図表である。 図9は、本開示の実施形態に係る各塩基に対する信頼区間を含む2つの配列の例示的なセットである。 図10は、本開示の実施形態に係るいくつかの配列の例示的な可視化である。 図11は、シーケンサーからの全リード間の例示的な比較セット、および1またはそれ以上のフィルターが本開示の実施形態に係る全リードに適用された後に得られた高品質リードの数である。 図12は、本開示の実施形態に係るいくつかのZFNの例示的な定量的解析である。 図13は、本開示の実施形態に係るZFN活性を詳述している例示的なグラフのセットである。 図14は、本開示の実施形態に係るZFN活性を詳述している例示的なグラフのセットである。
対応する参照文字は、いくつかの図にわたって対応する部分を示している。本明細書中に明示される例証は、本開示の例示的な実施形態を例証しており、そのような例証は、いかなる方法によっても本開示の範囲を限定すると解釈されるべきでない。
(図面の詳細な説明)
本明細書中に記載される本開示の実施形態は、網羅的であるかまたは開示される厳密な形態に本開示を限定すると意図されていない。むしろ、説明のために選択された実施形態は、当業者が本開示の主題を実施できるように選択されている。本開示は、解析システムの特定の構成を記載しているが、本明細書中に提示される概念は、本開示と矛盾しない他の様々な構成で使用されてもよいと理解されるべきである。さらに、ZFNに曝露されたDNA配列の解析が論じられるが、本明細書中の教示は、ZFNまたは他の酵素に曝露された他の配列の解析に適用されてもよい。
図1は、本開示の実施形態に係るデータ解析の方法を示しているフローチャートを示している。ボックス101に図示されているように、1またはそれ以上のシーケンサーが、1またはそれ以上のサンプルから配列データを生成する。ボックス103に図示されているように、シーケンサーから収集されたデータは、前処理されて、利用可能なデータを整理し、解析されるデータの全体の量を減少させる。ボックス105に図示されているように、配列を参照サンプルとアライメントし、解析する。ボックス107に図示されているように、後処理において、アライメントされた配列からの配列データを分別し、各ZFNの有効性を定量的および定性的に解析し得る。この方法は、図2〜4に照らして説明され、前処理を例証的に示す例示的な配列セットが、図7〜9に関して示される。
解析されるサンプルは、目的の生物由来の1またはそれ以上の細胞/組織を含むサンプルにある量のZFNを添加することによって調製され得る。その1またはそれ以上の細胞は、そのZFNによって標的化される特定の切断部位を含むゲノムDNAを含む。ZFN分子は、DNA鎖の1つ以上を特定の切断部位で切断し得る。そのDNAは、1またはそれ以上の他の酵素によって修復されることがあり、そのDNAの修復は、その切断部位における1またはそれ以上のランダムな改変を含むことがある。場合によっては、そのDNA鎖は、その配列が切断前のDNA鎖の配列と全く等しくなるように修復されることがある。他の場合では、そのDNA鎖は、1またはそれ以上の追加の塩基を含むことがあるか、またはそのDNA鎖は、1またはそれ以上の塩基が除去されることがある。さらに、ZFNが添加されずに、目的の生物由来の1またはそれ以上の細胞/組織だけを含む1またはそれ以上のサンプルが調製されることがある。ZFNを含まないサンプルは、コントロールサンプルと呼ばれる。通常、複数のサンプルが調製され、その各々が、ユニークなZFN処理を有する。反復処理のために、2またはそれ以上のサンプルが同じZFNを含むことがある。各ZFNの効果を解析することによって、所与のゲノムDNAに対して対象となる1またはそれ以上のZFNが特定され得る。
共通のDNA鎖および共通のZFNが使用されるサンプルでは、ユニークな識別マーカーまたはバーコードがDNA鎖に付加される。1つの実施形態において、そのバーコードは、例えば、DNA鎖の5’末端における一続きの6ヌクレオチドおよびDNA鎖の3’末端における一続きの6ヌクレオチドである。ある実施形態において、そのバーコードは、各末端における6ヌクレオチド超または未満であり得る。ある実施形態において、そのバーコードは、DNA鎖の5’末端だけまたはDNA鎖の3’末端だけに存在し得、6ヌクレオチド、6ヌクレオチド未満または6ヌクレオチド超のうちの1つを含む。それより長いまたは短いヌクレオチドが、バーコードとして使用されてもよい。そのバーコードは、複数のサンプルのDNA鎖がシーケンサーの1回のランで解析されることを可能にする。そのバーコードが存在するおかげで、複数の配列の各々の起源であるサンプルをシーケンサーは認識できる。それらの配列は、配列決定後にバーコードによって分別され得、添加されたジンクフィンガーヌクレアーゼに従って処理中および解析中に分別され得る。1つの実施形態において、少なくとも1つのバーコードが、ZFNで処理されていないコントロールDNA鎖に付加される。
シーケンサーのプロトコルまたは操作説明書に従って、上記のサンプルをシーケンサーに充填する。例えば、Solexa ILLUMINAブランドの配列決定装置またはRoche454ブランドの配列決定装置が使用され得る。そのシーケンサーは、配列に関するデータを生成する。そのデータとしては、サンプル中のDNA鎖の配列に関する情報を含む1またはそれ以上のテキストファイルまたは他のデータファイルが挙げられ得るがこれらに限定されない。ある実施形態において、配列情報は、配列中の各塩基がそれに関連する信頼区間を有し得るようなまたは各配列がそれに関連する信頼区間を有するような信頼データも含む。信頼区間は、シーケンサーによって計算される数学的計算値であり、シーケンサーによる特定の塩基のリードの強さを含み得る。1つの例証的な例において、信頼区間は、1から9までの整数である。その例では、1という信頼区間は、そのシーケンサーが、報告された塩基がそのDNA鎖中の塩基だったという相対的に低い信頼度を有することを示唆する。9という信頼区間は、そのシーケンサーが、報告された塩基がそのDNA鎖中の塩基だったという相対的に高い信頼度を有することを示唆する。ある実施形態において、シーケンサーは、信頼区間に加えて他の情報も報告する。例えば、塩基を読み出せなかったとき、シーケンサーは報告し得る。
ここで図2を参照すると、本開示の実施形態に係る図1のデータの前処理を示しているフローチャートが示されている。ボックス201に図示されているように、配列決定ランに対するデータがシーケンサーから読み出される。ある実施形態において、そのデータは、1またはそれ以上のテキストファイルの形態であり、そのテキストファイルは、配列情報、ならびにシーケンサーおよび/またはデータセットに関する他のデータを含む。そのデータは、短いDNA配列、すなわち「リード」を含む。ある実施形態において、そのデータは、各リード中のシーケンサーによって読み出された各塩基に対する信頼区間スコアも含む。そのバーコードデータは、図5および6に照らして下記でさらに詳細に記載されるように解析システム507によって読み出され、サンプルがバーコードとともにコードされている場合、それらのリードは、バーコードによって分別され、その結果、同じバーコードを有するリードは、集められる。ある実施形態において、バーコードに関する情報は、データベース、スプレッドシートまたは他のデータファイルとして記憶され、そのバーコード情報およびバーコードに関する情報は、解析システム507にとって利用可能にされる。
バーコードを有する例示的な配列セットが、図7に示されている。各配列が、標的部位ならびに5’末端および3’末端を有する。例証的な例では、それらのバーコードは、配列の5’および3’末端の両方に結合されている。ある実施形態において、それらのバーコードは、配列の5’末端だけに、または配列の3’末端だけに結合され得る。図7では、2つのバーコード、バーコード1およびバーコード2が存在している。各配列は、それらのバーコードのうちの1つを伴っており、配列1、配列2、配列4、配列7および配列8の各々が、バーコード1を有し、配列3、配列5、配列6、配列9および配列10の各々が、バーコード2を有する。1つの実施形態において、第1のZFNで処理されたすべての配列が、バーコード1を有し、第2のZFNで処理されたすべての配列が、バーコード2を有する。1つの実施形態において、それらの配列に対応するDNA鎖が、シーケンサー内のサンプル回収チャンバーに入れられる。別の実施形態において、それらのDNA鎖は、3’末端と5’末端(適切なバーコードを有する)とを結合されて、連続したDNA鎖を形成し、その連続した鎖が、シーケンサー内のサンプル回収チャンバーに入れられる。この実施形態では、シーケンサーおよび/または解析システム507が、配列決定後に配列を分別する。
図2のボックス203に図示されているように、同じバーコードを有するリードは、集められる。解析システム507または他の前処理システムは、リードからバーコード情報を除去するので、それらのリードに対するDNA配列情報が、解析のために残る。
バーコードに従って整理された図7の例示的な配列セットが、図8Aに示されている。配列1、配列2、配列4、配列7および配列8は、配列3、配列5、配列6、配列9および配列10と区別される。それらの配列は、バーコードによって分類され、次いで、バーコードが、配列から除去される。1つの実施形態において、配列がメモリーに記憶され、バーコードによって分類される。
図2のボックス205に図示されているように、リードに対する配列データが精査される。低品質リードをさらなる考慮から除去することによって、配列数が減少される。
1つの実施形態において、ある配列が低品質リードと考えられるか否かは、その配列データに付随する信頼区間情報に基づく。信頼区間情報が、シーケンサーによって提供されるかまたは計算され得る場合、各塩基に対する信頼区間情報が、精査される。1つの実施形態において、所定の信頼区間値を下回る1またはそれ以上の塩基を有するリードは、低品質リードとして却下される。すべての塩基が所定の信頼区間値を上回っているリードは、高品質リードとして許容される。0〜100の信頼区間(ここで、0が低信頼区間であり、100が高信頼区間である)、および30という信頼区間閾値を有するシーケンサーの場合、65、50、40および70という信頼区間を有する例示的なリードは、各信頼区間が30を超えているので、高品質リードとして許容される。25、10、90および56という信頼区間を有する別の例示的なリードは、それらの信頼区間の少なくとも1つが30を下回ったので、低品質リードとして却下される。1またはそれ以上の選択基準を決定するために、他の形態の解析も使用してよい。例えば、あるリード中の各塩基に対する信頼区間の平均が算出されてもよく、その平均信頼区間が信頼区間閾値より低い場合、そのリードは、却下され得る。ある実施形態において、信頼区間は、プロトコルによって設定されるか、または解析システム507の入力デバイス601を介してユーザーによって設定される。ユーザーまたはプロトコルによって判断されるとき、却下されるリードが多すぎるかまたは許容されるリードが多すぎる場合も、ユーザーは、信頼区間値を調整し得る。また、解析システム507は、却下されるリードが多すぎるかまたは許容されるリードが多すぎる場合、さらなるユーザーの入力無しに信頼区間を調整し得る。
図9は、信頼区間を含む例示的な2つの配列901、905のセットを示している。第1の配列901は、50塩基、および各塩基に付随する1〜9の信頼区間903を含む。それらの信頼区間は、シーケンサーによって割り当てられ、特定の塩基が正しく特定されているというシーケンサーの相対的な信頼度を示唆している。この例における9という信頼区間は、シーケンサーが、その塩基が正しく特定されていると非常に確信していることを示唆する。この例における1という信頼区間は、シーケンサーが、その塩基が正しく特定されていると確信していないことを示唆する。その例では、信頼区間閾値は、4に設定されており、これは、4より低い任意の塩基信頼区間を有する配列は却下されることを意味する。解析システム507は、第1の例示的な配列901と第2の例示的な配列905の両方を精査し得る。第1の例示的な配列901は、5またはそれ以上である各塩基に対する信頼区間903を含むので、解析システム507は、さらなる処理に対して第1の配列901を許容する。第2の例示的な配列905に付随する信頼区間907は、2という値を有する1つの信頼区間909を示唆しているので、解析システム507は、第2の例示的な配列を却下する。ある実施形態において、平均信頼区間が、特定の配列の塩基に付随する一連の信頼区間から決定される。平均信頼区間が、例えば、信頼区間値より低い場合、その配列は、却下される。別の実施形態において、ある配列は、却下されることになる信頼区間値より低い2またはそれ以上の信頼区間を有さなければならない。解析システムは、配列全体の信頼区間に基づいてどの配列を許容または却下するかを決定してもよいし、配列全体のサブセットに基づいてどの配列を許容または却下するかを決定してもよい。例えば、解析システムは、配列の標的部位または標的部位に隣接する1またはそれ以上の塩基に対する信頼区間を精査し得る。
信頼区間によって判定された低品質リードは、解析システム507によって除去されてもよいし、さらに考慮されなくてもよい。信頼区間によって判定された高品質リードは、さらなる処理のために解析システム507によって許容され得る。その高品質リードは、バーコードによって分別されたままである。1つの実施形態において、それらのリードは、バーコードによる分別の前に低品質または高品質であると判定される。
ボックス207に図示されているように、ユニークリード配列が高品質リードから抽出される。解析システム507は、所与のバーコードについてリードを精査し、それらのリードを互いに比較し、ユニークであるリードを抽出する。ある実施形態において、解析システム507は、ユニーク配列と同一であるリードの数も数え、特定のユニーク配列と同一であるリードの数に基づいてさらなる解析を重み付ける。
図8Bは、ユニーク配列に選別された図7および図8Aの配列を示している。バーコード1を伴っている配列のうち、配列1、配列4および配列7は、ユニークであり、配列2および配列8は、ユニークである。バーコード2を伴っている配列のうち、配列3、配列6および配列10は、同一であり、配列3は、ユニークであり、配列9は、ユニークである。
図8Cは、各ユニーク配列を伴っている配列の数のカウントとともに、図8Bの例示的な配列セットの図表を示している。この例では、ユニーク配列は、図8Bに示されたユニーク配列のセットにおける1番目の配列の識別子によって特定されている。バーコード1を伴うとき、配列1によって識別されたユニーク配列は、3つの同一配列(配列1、配列4および配列7)を有し、配列2と識別されたユニーク配列は、2つの同一配列(配列2および配列8)を有する。バーコード2を伴うとき、配列5によって識別されたユニーク配列は、3つの同一配列(配列5、配列6および配列10)を有し、配列3によって識別されたユニーク配列は、ユニークであり、配列9によって識別されたユニーク配列は、ユニークである。
ここで図3を参照すると、本開示の実施形態に係る図1のデータのアライメントを示しているフローチャートが示されている。ボックス301に図示されているように、参照サンプル(ZFNで処理されていない)の配列とリードをアライメントして、修復メカニズムがそのリードに対してもたらした変化をもしあれば判定する。
1つの実施形態において、解析システム507は、Smith−Watermanアルゴリズムを使用して、リードと参照サンプルの配列とをアライメントする。ある実施形態において、Smith−Watermanアルゴリズムは、パフォーマンスを高めるためまたは他の改変を行うために、改変またはカスタマイズされることがある。ある実施形態において、リードと参照サンプルの配列とをアライメントするために、JAlignerオープンソースソフトウェアパッケージが使用され得るか、またはSmith−Watermanアルゴリズムを実装しているJAlignerソフトウェアパッケージの改良版が使用され得る。
Smith−Watermanアルゴリズムは、ヌクレオチド配列間またはタンパク質配列間の類似度を測定するためのダイナミックプログラミング法である。このアルゴリズムは、最適な局所アライメントを探索することによって配列間の相同領域を特定するために使用される。最適な局所アライメントを見つけるために、指定のギャップペナルティのセットを含むスコアリングシステムが使用される。Smith−Watermanアルゴリズムは、最良の局所アライメントを特定するために、2つの配列間の可能性のあるすべての長さのセグメントを比較するという考えに基づいている。このアルゴリズムは、問題全体に及ぶ完全な解のために、その問題をより小さい問題に分け、これらのより小さい問題を解いた後、その小さな問題の各々に対する解を集約するために使用される一般的手法であるダイナミックプログラミングに基づいている。そのダイナミックプログラミングの手法を実行して、Smith−Watermanアルゴリズムは、比較される2つの配列中の任意の位置で始まるおよび終わる任意の可能性のある長さのアライメントを考慮して最適な局所アライメントを見つける。
配列アライメントは、通常、4つのカテゴリーのうちの1つに入る。第1のカテゴリーでは、リードと参照サンプル配列とが、正確に一致する。そのリードおよび参照サンプル配列は、2つの条件下で正確に一致する。第1に、そのZFNが、その特定のリードにおいて活性でなかった(すなわち、そのZFNはそのDNA鎖を切断しなかった)。第2に、そのZFNは、そのDNA鎖を切断したが、修復メカニズムがその鎖を完璧に修復し、修復された鎖が参照サンプル配列と全く同じだった。
第2のカテゴリーでは、1またはそれ以上の塩基が参照サンプル配列から変更または変異される場合に、リードが参照サンプル配列と整列する。変異した塩基は、標的部位内または標的部位外に存在し得る。変異した塩基が、標的部位の内側である場合、そのZFNは、そのDNA鎖を標的部位で切断したかもしれず、修復メカニズムが、ランダムな塩基を付加してそのDNA鎖を修復したかもしれない。変異した塩基が、標的部位の外側である場合、修復メカニズムが、そのDNA鎖を不正確に修復したかもしれないし、シーケンサーが、そのDNA鎖を不正確に読み出したかもしれないし、そのZFNが、そのDNA鎖を標的部位以外の位置で切断したかもしれない。ある実施形態において、変異した塩基が、標的部位の内側である場合、リードは保持される。変異した塩基が、標的部位の外側である場合、リードは、却下される。
第3のカテゴリーでは、1またはそれ以上の塩基が挿入される場合に、リードが参照サンプル配列と整列する(すなわち、リードが参照サンプル配列と整列するように1またはそれ以上の塩基が挿入されなければならない)。
第4のカテゴリーでは、1またはそれ以上の塩基がリードから欠失される場合に、リードが参照サンプル配列と整列する(すなわち、リードが参照サンプル配列と整列するように1またはそれ以上の塩基が欠失されなければならない)。
1つの実施形態において、リードは、上記の4つのカテゴリーのうちの1つに入るように評価される。ある実施形態において、リードが第1のカテゴリーに入る場合、そのリードは、さらなる考慮から除去される。リードが第2のカテゴリーに入る場合、そのリードは、さらなる考慮から除去される。第3または第4のカテゴリーに入るリードが、さらに考慮される。
上記アライメントアルゴリズムは、パラメータの最適化、特定のスコアリング基準の開発、および出力アライメント形式の操作(その結果、その形式は、他の可視化または解析のプログラムまたはアルゴリズムと互換性になる)を含むように改変され得る。例えば、パラメータ値を使用して、リードを「スコア付けする」ことにより、リードが高品質であるか低品質であるかが判定される。改変されたアルゴリズムとともに使用され得るパラメータ値としては、一致スコア3、不一致スコア0、ギャップオープンペナルティ2およびギャップ伸長ペナルティ1が挙げられる。各塩基は、スコアを割り当てられ得、各塩基の集計スコアもしくは平均スコアに応じて、そのリードはさらなる処理に対して許容または却下され得る。
上記アルゴリズムは、2つの配列間の各残基の比較に対してスコアを割り当てる。
一致もしくは置換および挿入/欠失に対してスコアを割り当てることによって、その所与のセルに対する可能性のあるすべての経路の計算ごとに、文字の各対の比較結果を重み付けして行列にする。任意の行列セルにおいて、値は、これらの座標で終わる最適なアライメントのスコアを表しており、その行列は、最高スコアのアライメントを最適なアライメントとして報告する。その行列から最適な局所アライメントを構築する場合、出発点は、最高スコアの行列セルである。次いで、0のスコアのセルに遭遇するまで、そのアレイを通って経路をトレースバックする。各セル内のスコアは、この特定のセルの座標で終わる任意の長さのアライメントに対する最大可能スコアであるので、この最高スコアのセグメントの整列は、最高スコアの局所アライメント、すなわち最適な局所アライメントをもたらし得る。1つの実施形態において、Smith−Waterman探索から最適なパフォーマンスを得るために行列、ギャップペナルティ(ギャップイニシャルコスト(gap initial costs)およびギャップ伸長コスト(gap extension costs)を含む)、E値などが考慮されるべきである。
そのアルゴリズムの行列の構成は、以下のとおりである。Smith−Watermanアルゴリズムを用いて比較される2つの配列の長さが、その行列の行および列の次元として使用される。例えば、行列Hは、以下のとおり構築される。
H(t,0)=0,0≦t≦m(式1)
H(0,j)=0,0≦j≦n(式2)
=bである場合、w(a,b)=w(一致)であるか、またはa!=bである場合、w(a,b)=w(不一致)である。
式中:
a,b=ヌクレオチドまたはタンパク質配列、
m=長さ(a)、
n=長さ(b)、
H(i,j)は、[1...i]の下付き数字とb[1...j]の下付き数字との間の最大類似度スコアであり、

ここで、’−’は、ギャップスコアリングスキームである。
追加のデータが、各リードに対して計算され得る。例えば、パーセントアライメントが、以下に従って計算され得る。
このパーセントアライメントの数字は、リードの相対的な品質を評価するために使用され得る。ある実施形態では、他のデータも計算される。他のデータとしては、例えば、限定されないが、リード中の単一ヌクレオチド多型(SNP)の総数、参照サンプル配列と比べてリード中にもたらされた挿入数または欠失数、およびリード上の標的部位内の挿入または欠失の上流および下流に存在する整列塩基数(該当する場合)が挙げられる。多くのリードに対して、リード上の標的部位内の挿入または欠失の上流および下流に存在する整列塩基数は、そのZFNが、特定の位置で確実に切断できることを示唆し得る。
ボックス303に図示されているように、それらのリードは、ランク付けされ得るか、またはスコア付けされ得るか、またはフィルターにかけられ得、高品質アライメントが、抽出され得る。ある実施形態では、1またはそれ以上のフィルターを用いて、高品質アライメントを低品質アライメントと区別する。例えば、限定されないが、リードを選別するためにパーセンテージアライメント値が使用され得る。高品質アライメントと低品質アライメントを区別するために、ユーザーが、パーセンテージアライメント値を選択してもよいし、解析システム507にパーセンテージアライメント値を提供してもよい。例えば、ユーザーが、判定基準として95%のアライメントパーセンテージを選択する場合、解析システム507は、95%より低いアライメントパーセンテージを有したリードを棄却し、95%より高いアライメントパーセンテージを有したリードを維持する。別のフィルターは、リード中のSNPの数であり得る。例えば、4またはそれ以上のSNPを有するリードが、却下され得るか、または別の数のSNPが、リードを許容もしくは却下するために使用され得る。さらに別のフィルターは、標的部位の上流および/または下流に存在する整列塩基数であり得る。例えば、標的部位内の挿入または欠失の上流および/または下流に存在するいくつかの塩基において2未満の塩基しか参照サンプルと整列しない場合、そのリードは、却下され得る。別の実施形態において、整列した上流または下流の塩基の別の数が選択される。さらに別のフィルターは、リード上の挿入または欠失の数であり得る。例えば、あるリードが、参照サンプルと比べて2またはそれ以上の挿入または欠失を有する場合、そのリードは却下され得るか、または別の挿入数もしくは欠失数が選択され得る。標的部位に挿入または欠失を有しないリードは、ZFNによって改変されていない可能性があるので、リードが標的部位に少なくとも1つの挿入または欠失を有さなければならないことが、さらに別のフィルターになり得る。ある実施形態において、定義された各フィルターを通過するリードは、高品質アライメントであり得る。
図11は、シーケンサーからの全リード間の例示的な比較セット、および1またはそれ以上の品質スコア閾値フィルターが全リードに適用された後に得られた高品質リードの数を示している。図11に示されている例示的な比較セットでは、その配列内の任意の位置に5未満の品質スコア信頼区間を有する任意のヌクレオチドを含む、各バーコードの内側の配列は除去される。さらに、その配列内の任意の位置に「N」を含む(1またはそれ以上の塩基を読み出せなかったことを示唆する)、各バーコードの内側の配列も除去される。この例では、これらのフィルターを通過する配列が、高品質配列を構成する。
ここで図4を参照すると、本開示の実施形態に係る図1のデータの後処理を示しているフローチャートが示されている。ボックス401に図示されているように、潜在的なZFN媒介性ゲノム改変が、各リードにおいて特定される。ある実施形態において、そのプロセスは、ボックス407に図示されているZFN媒介性改変の定性的解析を含み、ここで、ZFN処理サンプルおよびコントロールサンプルについて、参照配列の各位置に挿入および欠失を有する配列のパーセンテージが比較される。上記プロセスは、ZFN媒介性改変の定量的解析も含み得る。その定量的解析は、標的部位に挿入または欠失を含む高品質リードのパーセンテージをコンピュータで計算する工程を包含し得る。ZFNの有効性を計算するためにある実施形態において使用され得る式は、次の通りである。
このZFNの有効性の数値は、すべてのZFNタンパク質が同等に発現されるとの条件で、他のZFNタンパク質に対する有効性の数値およびZFN添加無しのコントロールサンプルに対する有効性の数値と比較されたときの、その活性部位における種々のZFNタンパク質の相対的な活性の定量化を提供する。
上記のアライメントには、注釈が付けられることがあり、それらのアライメントは、ボックス403および405に図示されているように、可視化のソフトウェアおよび/またはハードウェアに入力されて、ZFNによって標的部位に生成された改変が視覚的に調べられることがある。ユーザーまたは解析システム507は、例えば、限定されないが、Gbrowseまたは注釈を付けるためおよび/もしくは配列と情報交換するための他のゲノムビューアーを使用して、高品質リードを可視化し得る。例示的な可視化が、図10に示されている。いくつかの高品質配列および参照配列1001に対するそれらのアライメントを示している例示的な可視化が、図10に示されている。この例示的な可視化では、参照配列中のZFNの標的部位は、ボックス1003内のヌクレオチドによって表されている。各高品質配列は、参照配列1001の対応ヌクレオチドとアライメントされている。配列の見出しまたはID1005は、各高品質配列と関連づけられており、配列の最初に示されている。ID1005は、その配列に関するシーケンサー特異的情報、およびこの正確な配列が配列データセットにおいて見出された数を示すカウントを含む。その可視化では、高品質配列中のヌクレオチドと参照との完全な一致は、第1の視覚的特徴によって示され、ミスマッチヌクレオチドは、第2の視覚的特徴によって示され、欠失は、第3の視覚的特徴によって示されている。図示されているアライメントでは、高品質配列中のヌクレオチドと参照配列との完全な一致は、そのヌクレオチドを第1の色1007で強調することによって示されており、ミスマッチヌクレオチドは、そのヌクレオチドを第2の色1009で強調することによって示されている。高品質配列の中の欠失は、「−」1011として示されている。
いくつかのZFNの例示的な定量的解析が、図12に示されている。図13および図14は、ZFN活性を詳述している例示的なグラフのセットを示している。このグラフのY軸は、参照配列中の位置を詳述しており、このグラフのX軸は、参照配列中の特定の位置に挿入または欠失を有する配列のパーセンテージを示している。このグラフ中のとがった部分は、特定の位置における高い活性を示唆している。特に有効なZFNは、標的部位においてこのグラフ中に高くとがった部分を有し得る。さらに、特に有効なZFNは、参照サンプルの分布形態と異なる分布形態を有し得る。1つの例において、参照サンプルは、標的部位の始めに低いピークを含む分布形態を有し得るが、ZFN処理サンプルの分布形態は、より広がっていることがあり、標的部位にわたってより高く広いピークを有することがある。特に効果のないZFNは、参照サンプルのグラフと区別できないグラフを有し得る。種々のZFNの活性分布をさらに、Y軸について同じスケールで比較して、最も高い活性を有する候補が特定され得る。統計的検定を使用し、処理サンプルと野生型サンプルとの活性の分布の差を用いることにより、有効なZFNと効果のないZFNとが区別され得る。
いくつかの候補ZFNの活性の例示的な定量的解析が、図12に示されている。この図の1番目の縦列は、特定の候補ZFNで処理されたサンプルのID、およびその植物系における標的のゲノム位置における生物学的ノイズを捕捉するためのコントロールサンプルのIDを示している。コントロールサンプルにおける生物学的ノイズは、標的位置における既存のゲノム変異、または植物サンプルからのDNAの抽出および配列決定の実験手順中に誘導されたゲノム変異を含む。2番目の縦列は、サンプルまたは実験に基づいて配列を区別するために使用された6ヌクレオチドバーコードを示している。3番目の縦列は、すべての高品質配列のうち、標的部位に挿入または欠失を含んだ配列の数を示している。4番目および5番目の縦列は、それぞれ欠失および挿入を含む、縦列3における配列のサブセットの数を示している。6番目の縦列は、縦列3に示されたすべての配列の中のユニークな挿入または欠失の数を示している。7番目の縦列は、ZFN活性(処理サンプルの場合)またはノイズレベル(コントロールサンプルの場合)を、挿入または欠失を含む高品質配列に対するパーセンテージとして表しており、式5を用いて計算されている。特定のZFN処理サンプルのZFN活性と、対応するコントロールサンプルにおける生物学的ノイズのレベルとを比較することによって、そのゲノム中の標的位置におけるその特定のZFNの効率の定量的基準が提供される。すべての候補ZFNが、この基準に基づいてさらにランク付けされ得る。
1つの例示的な実施形態において、シーケンサーは、少なくとも200万個の配列に関するデータを提供する。解析システム507は、高品質リード配列を特定することによって、配列の数をおよそ180万個に、すなわち、最初の配列のおよそ5パーセント減少させる。その180万個の配列のうち、2000〜5000個の配列が、解析システム507によってユニークと特定される。解析システム507は、その2000〜5000個の配列を参照配列とアライメントし、高品質アライメントを計算する。高品質アライメントは、100〜500個存在し得る。ゆえに、解析システム507は、種々のZFNで処理された配列を含む配列の数を4桁減少させ、少なくとも約99.975パーセント〜99.995パーセント減少させた。1つの実施形態において、解析システム507は、配列の数を少なくとも約99パーセント減少させた。
ここで図5を参照すると、本開示の実施形態に係る、シーケンサーからデータ分析装置へのデータおよび資料のフローチャートが示されている。ボックス501に図示されているように、1またはそれ以上のサンプルが調製される。各サンプルは、DNA鎖の多くのコピーを含み得、ある量のZFNが、それらのサンプルに添加され得る。各サンプルは、異なるZFNを有し得る。本明細書中で論じられるように、ZFNは、標的領域でDNA鎖を切断するように機能する。次いで、それらのDNA鎖は、修復される。解析されるのは、DNA鎖を切断するZFNの能力およびそのDNA鎖の修復の特徴である。ある実施形態において、サンプルには、そのサンプルとZFNとの組み合わせにとってユニークなバーコードが付与される。ボックス503に示されるように、上記サンプルに対して使用されたものと同じDNA鎖を含む参照サンプルも調製される。多くの異なるZFNで処理されたサンプルおよび参照サンプルが、ボックス505に示されているシーケンサーに入れられる。そのシーケンサーは、例えば、限定されないが、1またはそれ以上のシーケンサーであり得るが、サンプルの解析を提供する任意のタイプの装置またはプロセスを使用してよい。シーケンサー505は、サンプル中のDNA鎖の配列を決定する。ある実施形態において、シーケンサー505は、例えば、限定されないが、シーケンサーが特定する塩基の各々に対する信頼区間を決定する追加の計算も行う。シーケンサー505は、データを生成する。そのデータは、例えば、限定されないが、配列情報、またはその配列情報に関する他の計算値(例えば、信頼区間)の形態であり、テキストファイルまたは他のデータファイルとして提供される。
シーケンサーからのデータは、解析システム507に提供される。そのデータは、シーケンサーと解析システム507との間のネットワークもしくは専用接続または着脱可能な記憶装置によって、シーケンサーから解析システム507に提供され得る。別の実施形態において、シーケンサーは、データをスクリーンまたはプリンターに出力し、そのデータは、例えば、限定されないが、キーボードまたはスキャナーから解析システム507に入力される。1つの実施形態において、解析システムは、シーケンサーの一部である。
解析システム507は、シーケンサーからデータを受け取り、高品質アライメントに対する配列情報またはリードに関する他のデータを計算する。また、ある実施形態において、解析システム507は、計算されたデータを他の解析システム、データ記憶システムまたは1またはそれ以上の可視化システムもしくは可視化モジュールに提供する。別の実施形態において、解析システム507は、データをスクリーンまたはプリンターに出力し、そのデータは、例えば、限定されないが、キーボードまたはスキャナーによって可視化システムまたはデータ記憶システムに入力される。
図6は、本開示の実施形態に係る図5の解析システム507の構成要素図を示している。解析システム507は、入力モジュール603、計算モジュール605、出力モジュール607および可視化モジュール611(これらは、解析システム507のメモリー615の中に存在し得る)を備え得る。これらのモジュールは、解析システム507の制御装置625によって実行され得る。制御装置625は、1またはそれ以上の処理装置であり得る。メモリー615は、コンピュータ可読媒体を備える。コンピュータ可読媒体は、解析システム507の1またはそれ以上の処理装置によってアクセスされ得る任意の利用可能な媒体であり得、揮発性媒体と不揮発性媒体の両方を含む。さらに、コンピュータ可読媒体は、着脱可能および着脱不可能な媒体の一方または両方であり得る。例としては、コンピュータ可読媒体には、RAM、ROM、EEPROM、フラッシュメモリーもしくは他のメモリー技術、CD−ROM、Digital Versatile Disk(DVD)もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用され得、かつ解析システム507によってアクセスされ得る他の任意の媒体が含まれ得るが、これらに限定されない。解析システム507は、単一のシステムであってもよいし、互いに通信し合っている2またはそれ以上のシステムであってもよい。1つの実施形態において、解析システム507は、1またはそれ以上の入力デバイス、1またはそれ以上の出力デバイス、1またはそれ以上の処理装置、およびその1またはそれ以上の処理装置に付随するメモリーを備える。その1またはそれ以上の処理装置に付随するメモリーには、モジュールの実行に関連するメモリーおよびデータの記憶に関連するメモリーが含まれ得るが、これらに限定されない。ある実施形態において、解析システム507は、1またはそれ以上のネットワークと結びついており、その1またはそれ以上のネットワークを介して1またはそれ以上の追加のシステムと通信する。上記モジュールは、ハードウェアもしくはソフトウェアまたはハードウェアとソフトウェアとの組み合わせにおいて実行され得る。ある実施形態において、解析システム507は、解析システム507が入力デバイス、出力デバイス、処理装置、メモリーおよびモジュールにアクセスできるようにする追加のハードウェアおよび/またはソフトウェアも備える。それらのモジュールまたはモジュールの組み合わせは、例えば、異なるシステム上の異なる処理装置および/またはメモリーと結びついていてもよく、それらのシステムは、互いに別々に配置され得る。1つの実施形態において、それらのモジュールは、1またはそれ以上のプロセスまたはサービスと同じシステム上で実行される。それらのモジュールは、互いに通信し合うようにおよび情報を共有するように動作可能である。それらのモジュールは、互いに別個であるおよび異なると記載されるが、その代わりに、2またはそれ以上のモジュールの機能が、同じプロセスまたは同じシステムにおいて実行されてもよい。
入力モジュール603は、入力デバイス601からデータを受け取る。入力モジュール603は、別のシステムからネットワークを通じて入力を受け取ってもよい。例えば、限定されないが、入力モジュール603は、コンピュータから1またはそれ以上のネットワークを通じて1またはそれ以上のシグナルを受け取る。入力モジュール603は、入力デバイス601からデータを受け取り、そのデータを計算モジュール605が認識できる形式に再配列または再処理し得、そのデータは、計算モジュール605に送信され得る。
入力デバイス601は、専用接続または他の任意のタイプの接続を介して、入力モジュール603と通信し得る。例えば、限定されないが、入力デバイス601は、Universal Serial Bus(「USB」)接続、入力モジュール603とのシリアルもしくはパラレル接続、または入力モジュール603との光リンクもしくは無線リンクを介して、入力モジュール603と通信し得る。その送信は、1またはそれ以上の物理的物体を介して行われてもよい。例えば、シーケンサーが、1またはそれ以上のファイルを生成し、そのシーケンサーまたはユーザーが、その1またはそれ以上のファイルを着脱可能な記憶デバイス(例えば、USB記憶デバイスまたはハードドライブ)にコピーし、ユーザーが、その着脱可能な記憶デバイスをシーケンサーから取り出し、それを解析システム507の入力モジュール603に取り付けてもよい。入力デバイス601と入力モジュール603との間を通信するために、任意のコミュニケーションプロトコルを使用してよい。例えば、限定されないが、USBプロトコルまたはBluetooth(登録商標)プロトコルが使用され得る。
1つの実施形態において、入力デバイス601は、シーケンサーである。そのシーケンサーは、1またはそれ以上のサンプルに関して、1またはそれ以上のサンプルに関する配列データを生成する。ある実施形態において、そのデータは、1またはそれ以上のファイルの形態であるか、またはそのシーケンサーが、そのデータをスクリーンまたはプリンターに出力し得、そのデータは、例えば、限定されないが、キーボード、マウスまたはスキャナーによって、解析システム507に入力される。ある実施形態において、そのシーケンサーは、サンプルを記述する追加のデータも含む。
ネットワークは、ローカルエリアネットワーク、広域ネットワーク、無線ネットワーク(例えば、IEEE802.11xコミュニケーションプロトコルを使用する無線ネットワーク)、有線ネットワーク、ファイバーネットワークまたは他の光ネットワーク、トークンリングネットワークのうちの1つ以上を含んでもよいし、他の任意の種類のパケット交換網も使用してよい。そのネットワークは、インターネットを含んでもよいし、他の任意のタイプの公的または私的なネットワークも含んでもよい。用語「ネットワーク」の使用は、そのネットワークを単一のネットワークのスタイルもしくはタイプに限定しないか、または1つのネットワークが使用されることを意味しない。任意のコミュニケーションプロトコルまたはタイプのネットワークの組み合わせが使用され得る。例えば、2またはそれ以上のパケット交換網が使用されてもよいし、パケット交換網が、無線ネットワークと通信してもよい。
計算モジュール605は、入力モジュール603からの入力を受け取り、その入力に基づいて1またはそれ以上の計算を行う。例えば、限定されないが、計算モジュール605は、リードからバーコードを分離し、1またはそれ以上のアルゴリズムを適用して、他のリード配列から高品質リード配列を抽出し、それらのリードを解析して、高品質リード配列からユニークリード配列を抽出する。計算モジュール605はまた、その高品質リード配列から配列情報を読み出し、それらの配列を1またはそれ以上の参照サンプル配列とアライメントしようと試みることがある。それらの高品質リード配列と参照サンプル配列とのアライメントは、追加のデータ(例えば、改変の数に関するデータ、または参照サンプル配列に対する高品質リード配列の挿入および/もしくは欠失の数に関するデータ)を生成する。ある実施形態において、計算モジュール605は、図1〜4に関して記載されるとき、高品質リード配列をスコア付けし、高品質リード配列から高品質アライメントを抽出する。その高品質アライメントは、上で図4に関して示されたようにさらに解析され得、ZFNに関するデータが解析される。さらに、ある実施形態において、その高品質アライメントは、解析および/または可視化される。
計算モジュール605は、出力、例えば、高品質アライメントに関するデータとして、その高品質アライメントに対するリード配列、および/またはその高品質アライメントの1つ以上を可視化する可視化モジュールによって使用されるデータを提供する。
可視化モジュール611は、高品質アライメントの1またはそれ以上の配列に関するデータを計算モジュールからの入力として受け取る。その可視化モジュールは、ユーザーが、高品質アライメントを可視化および/または操作できるようにする。ある実施形態において、可視化モジュール611は、GbrowseまたはGbrowseの改良版を使用し得る。ユーザーは、高品質アライメントの1またはそれ以上の視覚表示を操作する能力を有し得る。その可視化モジュールは、ユーザーが、元の参照配列とゲノム改変を有する高品質配列とのアライメントを見られるようにする。可視化工程は、ユーザーが、ZFNの活性、コントロールサンプルにおけるバックグラウンドノイズ、または特定のゲノム改変のタイプもしくは長さもしくは頻度を理解できるようにする。この可視化は、あるZFNヌクレアーゼを活性または不活性な候補として推奨するのに役立つ。改変された配列の可視化およびその後の翻訳は、その改変のタンパク質としての読み出しを提供する。その読み出しは、遺伝子ノックアウトの応用法において使用され得る。遺伝子ノックアウトの応用法の例としては、Dow AgroSciencesから入手可能なEXZACT(商標)Precision Technologyブランドによって媒介される遺伝子ノックアウトの応用法が挙げられ得る。
出力モジュール607は、入力を受け取り、その入力を出力デバイス609に送信する。1つの実施形態において、出力モジュール607は、英数字データの形態で計算モジュール605から入力を受け取り、そのデータを出力デバイス609が理解できる形式に再フォーマットし、そのデータを出力デバイス609に送信する。出力モジュール607および出力デバイス609は、互いに通信し合っている。例えば、限定されないが、出力モジュール607と出力デバイス609とは、ネットワークを介して通信しているか、または専用接続(例えば、有線または無線リンク)を介して通信している。出力モジュール607はまた、計算モジュール605から受け取ったデータを出力デバイス609が使用できる形式に再フォーマットし得る。例えば、出力モジュール607は、出力デバイス609が読み出し得る1またはそれ以上のファイルを作成し得る。
出力デバイス609は、ある実施形態において、可視化システム、別のデータ解析システム507またはデータ記憶システムである。出力モジュール607は、1またはそれ以上の電子ファイルを出力デバイス609に送信することによって出力デバイス609と通信する。その送信は、専用リンク、例えば、USB接続もしくはシリアル接続を通じて行われてもよいし、1またはそれ以上のネットワーク接続を通じて行われてもよい。その送信は、1またはそれ以上の物理的物体を介して行われてもよい。例えば、出力モジュール607は、1またはそれ以上のファイルを生成し得、その1またはそれ以上のファイルを着脱可能記憶デバイス(例えば、USB記憶デバイスまたはハードドライブ)にコピーし得、ユーザーが、その着脱可能記憶デバイスを解析システム507から取り出し、それを可視化システム、別のデータ解析システムまたはデータ記憶システムに取り付け得る。
本開示は、例示的な意図を有すると説明されてきたが、本開示は、本開示の精神および範囲内でさらに改変され得る。ゆえに、本願は、その一般原則を使用した本開示の任意のバリエーション、用途または翻案を包含すると意図されている。さらに、本願は、本開示が属する分野において公知または通例の実施の範囲内であるそのような本開示からの逸脱を包含すると意図されている。

Claims (30)

  1. ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、ZFNによって処理されたDNA鎖の解析を向上する方法において、
    (a)第1のセットの配列データを電子的に受信する工程であって、前記第1のセットの配列データは、第1のサンプルに対応する複数の配列を含み、前記第1のサンプルは、ZFNで処理された第1のDNA鎖を含み、それぞれの配列は、ヌクレオチド塩基の配列及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基がDNA鎖中の塩基に対応するかに関わる、信頼度に対応する、第1のセットの配列データを電子的に受信する工程と、
    (b)閾値以上の配列に関わる前記信頼区間データに応じて、前記複数の配列のから複数の高品質リード配列を電子的に特定する工程と、
    (c)複数のユニークリード配列の高品質のセットを提供するために、前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出する工程であって、前記高品質のセットのそれぞれの部分は、前記複数のユニークリード配列の高品質のセットの他の部分に対してユニークである、複数のユニークリード配列を抽出する工程と
    (d)前記複数のユニークリード配列の前記高品質のセットの抽出に続いて、複数の潜可能なアライメントでヌクレオチド塩基の参照配列に対して複数のユニークリード配列のそれぞれをアライメントする工程と、
    (e)複数のリード配列の前記高品質のセットの前記複数のユニークリード配列のそれぞれの前記ヌクレオチド塩基と、前記参照配列とを、可能なアライメントのそれぞれで比較する工程であって、前記複数の可能なアライメントから、ユニークリード配列のそれぞれのためのアライメントを選択する、比較する工程と、
    (f)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
    前記ユニークリード配列と参照配列とが、正確に標的部位に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
    参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第4のカテゴリーにする工程とを備え、
    (g)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の前記比較を含む、活性データを決定する工程と、
    (h)前記活性データの決定に応じ、かつ、前記第1のセットの配列データ中のすべての配列を前記参照配列で整列することなく、第1のDNA鎖を標的部位で切断するために第1のZENの効率を決定する工程とを含む、方法。
  2. 前記方法は、さらに、前記選択されたアライメントを可視化する工程を含み、前記アライメントは、1またはそれ以上の分離フィルターを通過したものである、請求項1に記載の方法。
  3. 前記複数の配列の各々が、植物ゲノムの少なくとも一部からなる、請求項1に記載の方法。
  4. 1またはそれ以上のバーコードを記述しているバーコード情報が、電子的に受信され、ぞれぞれのバーコードは、DNA鎖の末端におけるヌクレオチド塩基の配列である、
    請求項1に記載の方法。
  5. 前記第1のセットの配列データは、さらに1またはそれ以上のバーコードを含み、それぞれのバーコードは、特定のDNA及び特定のZFNを共に有するサンプルに対応し、前記方法は、さらに前記複数の高品質リード配列を1またはそれ以上の群に選別する工程を含み、同じ群中の高品質リード配列は、同じバーコードを有する、請求項1に記載の方法。
  6. ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置であって、当該解析装置はZFNによって処理されたDNA鎖の向上された解析を実行し、前記装置は、
    少なくとも1つの処理装置と、
    複数の配列を含む配列データを受け取るように構成された入力モジュールであって、前記複数の配列は、第1のZFNで処理された第1のDNA鎖を含む第1のサンプルに対応し、それぞれの配列は、ヌクレオチド配列及び信頼区間情報を含み、前記信頼区間情報は、ヌクレオチド配列中の塩基がDNA鎖中の塩基に対応するかに関わる、信頼度に対応し、前記入力モジュールは、さらに前記少なくとも1つの処理装置に利用可能な前記配列データを作るように動作可能である、入力モジュールと、
    前記少なくとも1つの処理装置内に設けられた電子的な計算モジュールとを備え、当該電子的な計算モジュールは、
    (a)前記複数の配列のどの配列が閾値以上である信頼区間情報と関連するかを決定することによって、かつ、そのような信頼区間を有するそのような配列を高品質リード配列として分類することによって、複数の高品質リード配列を特定し、
    (b)前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出し、
    (c)ヌクレオチド塩基の参照配列に対して前記複数のユニークリード配列を整列し、前記参照配列は、複数の可能なアライメントにおける参照サンプルに対応し、前記参照サンプルは、前記第1のZFNによって処理されていない第1のDNA鎖に対応し、
    (d)前記ユニークリード配列及び前記参照配列のそれぞれの塩基を、前記複数の可能なアライメントのそれぞれで比較し、それぞれのユニークリード配列のための前記複数の可能なアライメントからアライメントを選択し、
    (e)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及びヌクレオチド塩基の前記比較に応じて、次のプロセスにしたがってユニークリード配列のそれぞれのカテゴリーを決定するものであり、前記プロセスは、
    前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第1のカテゴリーに分類すること、
    参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類すること、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第3のカテゴリーに分類すること、及び
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第4のカテゴリーに分類すること、を含み、
    (f)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定し、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の比較を含み、
    (g)前記決定された活性データに応じ、前記第1のDNA鎖を切断するために前記第1のZENの効率を決定する、装置。
  7. 前記電子的計算モジュールがさらに、前記高品質アライメントに応じて、前記選択されたアライメントのためにパーセンテージアライメントの値を計算し、かつ前記選択されたアライメントから高品質アライメントを抽出するように動作可能であり、前記高品質アライメントは、アライメントパーセンテージの基準値より高い計算されたパーセントアライメントを有する、請求項6に記載の装置
  8. 記ユニークリード配列の前記選択されたアライメントの定性的解析を行うモジュールをさらに備える、請求項に記載の装置
  9. 記ユニークリード配列の前記選択されたアライメントの定量的解析を行うモジュールをさらに備える、請求項に記載の装置
  10. 記ユニークリード配列の前記選択されたアライメントを可視化するモジュールをさらに備える、請求項に記載の装置
  11. 前記電子的計算モジュールが、さらにそれぞれの可能なアライメントのためのアライメントスコアを計算して、前記選択されたアライメントを決定するように構成される、請求項6に記載の装置
  12. ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置であって、当該解析装置はZFNによって処理されたDNA鎖の向上された解析を実行し、前記装置は、
    処理装置と、
    複数の配列を含む配列データを受け取るためのモジュールであって、前記複数の配列は、第1のZFNで処理された第1のDNA鎖を含む第1のサンプルに対応し、前記複数の配列のそれぞれの配列は、ヌクレオチド塩基の配列を含む、モジュールと、
    計算モジュールとを備え、当該計算モジュールは、
    (a)閾値以上の配列のそれぞれに対応する信頼区間データに応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定し、
    (b)前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出し、
    (c)複数の可能なアライメントで、参照サンプルに対応する参照配列に対して、ユニークリード配列のそれぞれの前記ヌクレオチド塩基を比較して、それぞれのユニークリード配列のために、前記複数の可能なアライメントからアライメントを選択し、前記計算モジュールは、ユニークリード配列のそれぞれ及び前記参照配列の間でパーセンテージアライメント値を計算し、さらに前記計算されたパーセンテージアライメント値がアライメントパーセンテージ基準値より高い場合、前記配列データを第1の群に分類し
    (d)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定するものであり、前記決定は、
    前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第1のカテゴリーに分類すること、
    参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類すること、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第3のカテゴリーに分類すること、及び
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第4のカテゴリーに分類すること、を含み、
    (e)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定し、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のための前記ヌクレオチド塩基の比較を含み、
    (f)前記決定された前記活性データに応じ、前記第1のDNA鎖を切断するための前記第1のZENの効率を決定する、装置。
  13. ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、ZFNによって処理されたDNA鎖の解析を向上する方法において、
    (a)複数のDNA鎖を1つ以上のジンクフィンガーヌクレアーゼ(ZFN)に曝露する工程と、
    (b)複数の配列を含む配列データを電子的に受信する工程であって、前記複数の配列のそれぞれの配列は、複数のDNA鎖の1つからのヌクレオチド塩基の配列を含み、前記ヌクレオチド塩基の配列中の塩基が前記DNA鎖中の塩基に対応するかに関わる、信頼度に対応するデータを含む、配列データを電子的に受信する工程と、
    (c)閾値以上の信頼度に応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定する工程と、
    (d)ユニーク高品質リード配列のセットを生成するために、前記特定された複数の高品質リード配列からユニークリード配列を抽出する工程と、
    (e)前記ユニーク高品質リード配列のセットの前記高品質リード配列のそれぞれを、配列データに対して整列する工程であって、前記配列データは、複数の可能なアライメントで参照サンプルに対応し、前記参照サンプルは、1以上のFZNに曝露されていない複数のDNA鎖の1つに対応する、配列データに対して整列する工程と、
    (f)前記複数のユニークリード配列の前記ヌクレオチド塩基、及び前記配列データを、前記可能なアライメントのそれぞれで比較する工程であって、これによってユニークリード配列のそれぞれのための複数の可能なアライメントからアライメントを選択する、比較する工程と、
    (g)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
    前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
    参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第4のカテゴリーに分類する工程と、を含み、
    (h)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の前記比較を含む、活性データを決定する工程と、
    (i)前記決定された活性データに応じ、複数のDNA鎖の1つを切断するために第1のZENの一つの効率を決定する工程とを含む、方法。
  14. 前記配列データは、1またはそれ以上のバーコードを含み、それぞれのバーコードは、特定のDNA鎖及び特定のZFNを共に有するサンプルに対応し、前記方法は、さらに前記複数の配列データを1、2またはそれ以上の群に選別する工程を含み、同じ群の高品質リード配列は、同じバーコードを有する、請求項13に記載の方法。
  15. ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、ZFNによって処理されたDNA鎖の解析を向上する方法において、
    (a)第1の数のDNA鎖を第1の複数のZFNで切断して、前記切断された鎖を実質的に修復する、工程と、
    (b)第2の数のDNA鎖を第2の複数のZFNで切断して、前記切断された鎖を実質的に修復する、工程と、
    (c)配列データを電子的に受信する工程であって、前記配列データは、第1の数の配列を含み、前記第1の数の配列は、第1の複数の配列及び第2の複数の配列を含み、前記第1の複数の配列は、前記第1の数のDAN鎖からの複数のヌクレオチド塩基配列、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第1の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応し、前記第2の複数の配列は、前記第2の数のDAN鎖からの複数のヌクレオチド塩基配列、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第2の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応する、配列データを電子的に受信する工程と、
    (d)閾値以上の前記信頼区間データに応じて、前記第1の複数の配列の間から第1の複数の高品質リード配列を、前記第2の複数の配列の間から第2の複数の高品質リード配列を、電子的に特定する工程と、
    (e)前記特定された前記第1の複数の高品質リード配列から第1の複数のユニークリード配列を、前記特定された前記第2の複数の高品質リード配列から第2の複数のユニークリード配列を、抽出する工程と、
    (f)複数の可能なアライメントで前記第1及び第2の数のヌクレオチド塩基鎖の少なくとも1つ中で、参照DNA鎖に対応する参照配列に対して、前記第1及び第2の複数のユニークリード配列を整列し、前記複数の可能なアライメントのそれぞれで前記参照配列に対して前記第1及び第2の複数のユニークリード配列の前記ヌクレオチド塩基を比較して、前記複数の可能なアライメントからそれぞれのユニークリード配列のためのアライメントを選択し、前記配列に対する少なくとも1つの特徴となる修復を特定する、工程と、
    (g)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
    前記整列されたユニークリード配列と参照配列とが正確に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
    参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第4のカテゴリーに分類する工程とを備え、
    (h)第2の数の配列を電子的に決定する工程であって、前記第2の数の配列は、前記第1の数の配列の部分群であり、前記第2の数の配列は、前記配列を切断するために使用されたZFNおよび前記配列に対する修復の少なくとも1つの特徴を共に有し、前記第2の数の配列は、前記第1の数の配列の1パーセント未満である、工程と、
    (i)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、前記第2の数の配列中で、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の比較を含む、活性データを決定する工程と、
    (j)前記決定された活性データに応じ、前記参照DNA鎖を切断するために、前記第2の数の配列のZENの効率を決定する工程とを含む、方法。
  16. 前記第2の数の配列が、前記第1の数の配列の0.1パーセント未満である、請求項15に記載の方法。
  17. 前記第2の数の配列が、前記第1の数の配列の0.01パーセント未満である、請求項15に記載の方法。
  18. 前記第2の数の配列が、前記第1の数の配列の0.01パーセント未満であり、前記第1の数の配列が、少なくとも100万個の配列である、請求項15に記載の方法。
  19. 前記配列に対する修復の第1の特徴が、標的切断領域中の挿入数および欠失数のうちの少なくとも1つの基準を含む、請求項15に記載の方法。
  20. ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、解析方法であって、前記方法は、
    第1の数のDNA鎖を第1の複数のジンクフィンガーヌクレアーゼ(ZFN)で切断して、前記切断された鎖を実質的に修復する、工程と、
    第2の数のDNA鎖を第2の複数のZFNで切断して、前記切断された鎖を実質的に修復する、工程と、
    配列データを電子的に受信する工程であって、前記配列データは、第1の数の配列を含み、前記第1の数の配列は、第1の複数の配列及び第2の複数の配列を含み、前記第1の複数の配列は、前記第1の数のDAN鎖からの複数のヌクレオチド塩基、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第1の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応し、前記第2の複数の配列は、前記第2の数のDAN鎖からの複数のヌクレオチド塩基、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第2の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応する、配列データを電子的に受信する工程と、
    閾値以上の前記信頼区間データに応じて、前記第1の複数の配列の間から第1の複数の高品質リード配列を、前記第2の複数の配列の間から第2の複数の高品質リード配列を、電子的に特定する工程と、
    前記特定された第1の複数の高品質リード配列から第1の複数のユニークリード配列を、前記特定された第2の複数の高品質リード配列から第2の複数のユニークリード配列を、抽出する工程と、
    第2の数の配列を電子的に決定する工程であって、前記第2の数の配列は、前記第1の数の配列の部分群であり、前記第2の数の配列は、前記配列を切断するために使用されたZFNおよび前記配列に対する修復の少なくとも1つの特徴を共に有し、前記第2の数の配列は、前記第1の数の配列の1パーセント未満である、第2の数の配列を電子的に決定する工程とを備え、当該第2の数の配列を電子的に決定する工程は、
    (a)第1の数の配列を複数の群に分離する工程であって、同じZFNがそれぞれの群のそれぞての配列を切断するために用いられる、分離する工程と、
    (b)第1の数の配列中で複数の高品質リード配列を電子的に特定する工程であって、前記複数の高品質リード配列は第3の数の配列を含み、前記第3の数の配列は、前記第1の数の配列より少なく、かつ前記第2の数の配列より多い、複数の高品質リード配列を電子的に特定する工程と、
    (c)前記第3の数の配列から複数のユニークリード配列を抽出する工程であって、前記複数のユニークリード配列は、前記第3の数の配列より少なく、かつ前記第2の数の配列以上の第4の数の配列を有する、ユニークリード配列を抽出する工程と、
    (d)前記第4の数の配列のそれぞれのヌクレオチド塩基を参照配列と比較する工程であって、前記参照配列は、複数の可能なアライメントで前記第1及び第2の数のDNA鎖の少なくとも1つの中で参照DNA鎖に対応して、前記第2の数の配列を有する複数の高品質アライメント配列を特定する、比較する工程とを備え、
    前記第2の数の配列及び前記ヌクレオチド塩基の比較に応じて、第2の数の配列のそれぞれのためのカテゴリーを決定する工程を備え、当該カテゴリーを決定する工程は、
    前記整列されたユニークリード配列と参照配列とが正確に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
    参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
    前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第4のカテゴリーに分類する工程とを含み、
    前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、前記第2の数の配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中の前記ヌクレオチド塩基の比較を含む、活性データを決定する工程と、
    前記決定された活性データに応じ、前記第2の数の配列中の配列を切断するために用いられる前記ZENの効率を決定する工程とを含む、方法。
  21. 前記方法は、
    配列中の総塩基数によって整列された塩基数を割ることによって、パーセントアライメントを決定する工程と、
    前記パーセントアライメントに応じて、さらに整列した複数のユニークリード配列及び参照配列の間から複数の高品質アライメントを特定する工程とを含む、請求項1に記載の方法。
  22. 前記標的部位で前記第1のDNA鎖を切断するための前記第1のZENの効率は、挿入及び/または欠落の数を高品質配列数で割ることにより決定される、請求項1に記載の方法。
  23. 前記方法は、さらに、ある量の第1のZFNを、DNAを含む第1のサンプルに添加する工程と、
    第1の組の配列データを得るために前記第1のサンプルの配列を決定する工程とを含む、請求項1に記載の方法。
  24. 前記方法は、さらに、DNAを含む第2のサンプルを提供する工程と、
    参照配列を得るためにZFNの添加せずに前記第2のサンプルの配列を決定する工程とを含む、請求項23に記載の方法。
  25. アライメントを選択するために前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、前記ユニークリード配列のそれぞれのための前記アライメントを選択するために、Smith−Watermanアルゴリズムを用いることを含む、請求項1に記載の方法。
  26. 前記参照配列は、酵素で処理されていない参照サンプルから得られる、請求項1に記載の方法。
  27. 前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、ヌクレオチド塩基の配列中のヌクレオチド塩基のそれぞれに、アライメントのスコアを割り当てる工程を含み、前記スコアは、一致である第1の値、不一致である第2の値、挿入である第3の値、欠失である第4の値を有し、ユニークリード配列のそれぞれのためのアライメントのスコアを決定する工程を含み、前記アライメントのスコアは、前記ユニークリード配列中の塩基の集計スコアである、請求項1に記載の方法。
  28. 前記アライメントを選択するために前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、前記ユニークリード配列のそれぞれのための前記アライメントを選択するために、行列Hを使用するSmith−Watermanアルゴリズムを用いることを含み、Smith−Watermanアルゴリズムを用いて比較される2つの配列の長さは、前記行列の行および列の次元として使用され、前記行列の構築は、は以下の通り、
    H(t,0)=0,0≦t≦m(式1)、
    H(0,j)=0,0≦j≦n(式2)、
    ai=bjである場合、w(ai,bj)=w(一致)であるか、またはai!=bjである場合、w(ai,bj)=w(不一致)であり、

    式中:
    a,b=ヌクレオチドまたはタンパク質配列、
    m=長さ(a)、
    n=長さ(b)、
    H(i,j)は、[1...i]の下付き数字とb[1...j]の下付き数字との間の最大類似度スコアであり、

    ここで、’−’は、ギャップスコアリングスキームである、請求項27に記載の方法。
  29. 前記方法は、ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び高品質アライメントのみを通過するように構成された1つまたはそれ以上の分離フィルターに応じて、当該1つまたはそれ以上の分離フィルターを通過しない選択されたされたアライメントを取り除く工程を含む、請求項1に記載の方法。
  30. 前記第1のセットの配列データは、さらに複数のサンプルに対応する複数の配列を含み、それぞれのサンプルはZFNで処理されたDNA鎖を含み、前記複数のサンプルのDNA鎖は、標的部位を有し、前記方法は、さらに
    対応する標的部位で対応するDNA鎖を切断するために、前記複数のサンプルのZFNのそれぞれの効率を決定する工程と
    前記ZFNの効率をランク付けする工程とを含む、請求項5に記載の方法
JP2013547551A 2010-12-29 2011-12-20 Dna配列のデータ解析法 Expired - Fee Related JP6066924B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201061428191P 2010-12-29 2010-12-29
US61/428,191 2010-12-29
US201161503784P 2011-07-01 2011-07-01
US61/503,784 2011-07-01
PCT/US2011/066284 WO2012092039A1 (en) 2010-12-29 2011-12-20 Data analysis of dna sequences

Publications (2)

Publication Number Publication Date
JP2014505935A JP2014505935A (ja) 2014-03-06
JP6066924B2 true JP6066924B2 (ja) 2017-01-25

Family

ID=45509679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013547551A Expired - Fee Related JP6066924B2 (ja) 2010-12-29 2011-12-20 Dna配列のデータ解析法

Country Status (13)

Country Link
US (1) US20120173153A1 (ja)
EP (1) EP2659411A1 (ja)
JP (1) JP6066924B2 (ja)
KR (1) KR20140006846A (ja)
CN (1) CN103403725A (ja)
AR (1) AR084631A1 (ja)
AU (1) AU2011352786B2 (ja)
BR (1) BR112013016631A2 (ja)
CA (1) CA2823061A1 (ja)
IL (1) IL227246A (ja)
RU (1) RU2013135282A (ja)
WO (1) WO2012092039A1 (ja)
ZA (1) ZA201305274B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195216A1 (en) * 2013-01-08 2014-07-10 Imperium Biotechnologies, Inc. Computational design of ideotypically modulated pharmacoeffectors for selective cell treatment
MX358066B (es) 2013-11-04 2018-08-03 Dow Agrosciences Llc Óptimos loci de soya.
AU2014341927B2 (en) 2013-11-04 2017-12-14 Corteva Agriscience Llc Optimal maize loci
CN104200135A (zh) * 2014-08-30 2014-12-10 北京工业大学 基于MFA score和排除冗余的基因表达谱特征选择方法
KR102140032B1 (ko) 2015-04-30 2020-07-31 가부시키가이샤텐쿠 게놈 해석 장치 및 게놈 가시화 방법
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CA2994406A1 (en) * 2015-08-06 2017-02-09 Arc Bio, Llc Systems and methods for genomic analysis
CN108885648A (zh) * 2016-02-09 2018-11-23 托马生物科学公司 用于分析核酸的系统和方法
WO2019129239A1 (en) * 2017-12-29 2019-07-04 Act Genomics Co., Ltd. Method and system for sequence alignment and variant calling
KR102488671B1 (ko) 2020-09-15 2023-01-13 전남대학교산학협력단 Dna 연성 정보 연산 방법, 이를 위한 dna 저장 장치 및 이를 위한 프로그램

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60029572T2 (de) * 1999-03-23 2007-07-26 Biovation Ltd. Isolierung und analyse von proteinen
AU2008305568B2 (en) * 2007-09-27 2013-11-21 Corteva Agriscience Llc Engineered zinc finger proteins targeting 5-enolpyruvyl shikimate-3-phosphate synthase genes
KR101759586B1 (ko) * 2008-08-22 2017-07-19 상가모 테라퓨틱스, 인코포레이티드 표적화된 단일가닥 분할 및 표적화된 통합을 위한 방법 및 조성물
CN101429559A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种环境微生物检测方法和系统
JP5932632B2 (ja) * 2009-03-20 2016-06-15 サンガモ バイオサイエンシーズ, インコーポレイテッド 改変された亜鉛フィンガータンパク質を使用したcxcr4の修飾

Also Published As

Publication number Publication date
RU2013135282A (ru) 2015-02-10
AU2011352786A1 (en) 2013-08-01
JP2014505935A (ja) 2014-03-06
KR20140006846A (ko) 2014-01-16
EP2659411A1 (en) 2013-11-06
AU2011352786B2 (en) 2016-09-22
WO2012092039A1 (en) 2012-07-05
IL227246A (en) 2017-03-30
CA2823061A1 (en) 2012-07-05
ZA201305274B (en) 2014-09-25
AR084631A1 (es) 2013-05-29
CN103403725A (zh) 2013-11-20
BR112013016631A2 (pt) 2016-10-04
US20120173153A1 (en) 2012-07-05

Similar Documents

Publication Publication Date Title
JP6066924B2 (ja) Dna配列のデータ解析法
US10127351B2 (en) Accurate and fast mapping of reads to genome
US20180225416A1 (en) Systems and methods for visualizing a pattern in a dataset
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
Merkel et al. Detecting short tandem repeats from genome data: opening the software black box
CN109243530B (zh) 遗传变异判定方法、系统以及存储介质
CN111139291A (zh) 一种单基因遗传性疾病高通量测序分析方法
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN107480470A (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
Moyers et al. Toward reducing phylostratigraphic errors and biases
CN112599198A (zh) 一种用于宏基因组测序数据的微生物物种与功能组成分析方法
Michaeli et al. Automated cleaning and pre-processing of immunoglobulin gene sequences from high-throughput sequencing
CN105528532A (zh) 一种rna编辑位点的特征分析方法
JP5403563B2 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
GB2579110A (en) Method for determining a consensus sequence of a target polymer
CN104598775A (zh) 一种rna编辑事件识别机制及其高效实现方案
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
CN116097361A (zh) 用于在来自单细胞分区的多基因组特征数据中鉴定特征连锁的系统和方法
Cook et al. A deep-learning-based RNA-seq germline variant caller
KR102110017B1 (ko) 분산 처리에 기반한 miRNA 분석 시스템
CN117789823B (zh) 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备
CN113496761B (zh) 确定核酸样本中cnv的方法、装置及应用
Ettetuani et al. Meta-analysis for a therapeutic target involved in the activation of the genes associated with c3 glomerulopathy
WO2024140881A1 (zh) 胎儿dna浓度的确定方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160315

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161220

R150 Certificate of patent or registration of utility model

Ref document number: 6066924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees