JP2015509623A - Dna配列のデータ分析 - Google Patents

Dna配列のデータ分析 Download PDF

Info

Publication number
JP2015509623A
JP2015509623A JP2014556652A JP2014556652A JP2015509623A JP 2015509623 A JP2015509623 A JP 2015509623A JP 2014556652 A JP2014556652 A JP 2014556652A JP 2014556652 A JP2014556652 A JP 2014556652A JP 2015509623 A JP2015509623 A JP 2015509623A
Authority
JP
Japan
Prior art keywords
sequence
sequences
genome
reference data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014556652A
Other languages
English (en)
Other versions
JP6314091B2 (ja
Inventor
サストリー−デント,ラクシュミ
スリラム,シュリードハラン
エランゴ,ナビン
ツァオ,ツェフイ
ムトゥランマン,カルシック,ナラヤン
Original Assignee
ダウ アグロサイエンシィズ エルエルシー
ダウ アグロサイエンシィズ エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ダウ アグロサイエンシィズ エルエルシー, ダウ アグロサイエンシィズ エルエルシー filed Critical ダウ アグロサイエンシィズ エルエルシー
Publication of JP2015509623A publication Critical patent/JP2015509623A/ja
Application granted granted Critical
Publication of JP6314091B2 publication Critical patent/JP6314091B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

データ分析のためのシステムおよび方法が提供されている。一実施形態では、配列データを電子的に受け取るステップと、少なくとも発現ベクターに関係する1つまたは複数の参照データ配列を電子的に受け取るステップと、参照データ配列の少なくとも1つと配列データを関連付けて導入遺伝子隣接配列を同定するステップと、ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索するステップと、前記検索ステップで1つまたは複数の挿入部位が発見された場合に、ゲノムとゲノム内の1つまたは複数の挿入部位とをアノテートするステップとを含む、分析方法が提供される。【選択図】図4

Description

関連出願の相互参照
本願は、2012年2月8日に出願された米国仮特許出願第61/596,540号、および2012年2月21日に出願された米国仮特許出願第61/601,090号の利益を主張するものであり、これらの開示は、その全体が参照により本明細書に明白に組み込まれている。
本開示は、シークエンシング(sequencing)データのコンピューター分析に部分的に関する。より具体的には、本開示は、導入遺伝子挿入部位などのゲノム修飾を同定および分析するコンピューター化されたプロセスに部分的に関する。
導入遺伝子隣接配列の同定および特徴付けは、導入遺伝子配列を含む生成物の商業化および登録に必要とされる場合がある。導入遺伝子隣接配列の同定および特徴付けは、EXZACT(商標)Precision Technologyブランドのゲノム修飾技術によって生じるイベントの特徴付けのように、他のタイプの活性にとっても重要であり得る。例えば、EXZACT(商標)Precision Technologyブランドのゲノム修飾技術は、ゲノム修飾に関する最先端の多用途でロバストなツールキットである。これは、配列特異的DNA配列に結合するように設計することができるタンパク質である亜鉛フィンガーヌクレアーゼ(「ZFN」)の設計および使用に基づく。EXZACT(商標)ブランドの技術を使用して、生物のゲノム内でZFN促進二本鎖切断を生じさせ、それによって、DNA配列中の対象とする特定の遺伝子座で導入遺伝子の標的化挿入をもたらすことができる。
導入遺伝子隣接配列は、ゲノム組込み部位の染色体隣接領域、および組み込まれた導入遺伝子からなる。導入遺伝子隣接配列は、染色体の特定の位置への導入遺伝子の組込みから生じる欠失、反転、または挿入を含み得る。導入遺伝子DNA、シークエンシングで使用されるクローニングベクター、導入遺伝子隣接領域配列を単離するのに使用されるプライマーおよび/またはアダプター、導入遺伝子が組み込まれた染色体配列、ならびに予期しない再配列を介してゲノム内に挿入された他の無関係なDNA断片の間に、核酸類似の領域が存在する場合がある。
導入遺伝子隣接領域配列を単離するのに、様々な方法を使用することができる。次いでこの導入遺伝子隣接領域配列を、従来のジデオキシシークエンシング法、鎖停止シークエンシング法を使用して、または次世代シークエンンシング(Next Generation Sequencing)法を介して配列決定することができる。
Brautigmaら、2010年、に記載されたように、DNA配列分析は、単離および増幅された断片のヌクレオチド配列を決定するのに使用することができる。増幅された断片は、単離し、ベクター中にサブクローン化し、チェーンターミネーター法(サンガーシークエンシングとも呼ばれる)または色素−ターミネーターシークエンシングを使用して配列決定することができる。さらに、単位複製配列を次世代シークエンシングで配列決定することができる。NGS技術は、サブクローニングステップを必要とせず、複数のシークエンシング読み取りを単一反応内で完了することができる。3つのNGSプラットフォーム、454 Life Sciences/Roche製Genome Sequencer FLX、Solexa製Illumina Genome Analyser、およびApplied BiosystemsのSOLiD(「Sequencing by Oligo Ligation and Detection」の頭字語)が市販されている。さらに、現在開発されている2つの単一分子シークエンシング法が存在する。これらとしては、Helicos Bioscience製のtrue Single Molecule Sequencing(tSMS)、およびPacific Biosciences製のSingle Molecule Real TimeSequencing(SMRT)がある。
454 Life Sciences/Rocheが販売しているGenome Sequencer FLXは、シークエンシング読み取りを生じさせるのにエマルジョンPCRおよびピロシークエンシングを使用するロングリードNGSである。300〜800bpのDNA断片、または3〜20kbpの断片を含むライブラリーを使用することができる。反応により、250〜400メガベースの全収率について、1実行当たり約250〜400塩基の100万を超える読み取りが生じ得る。この技術は、最も長い読み取りを生じさせるが、1実行当たりの総配列出力は、他のNGS技術と比較して低い。
Solexaが販売するIllumina Genome Analyserは、蛍光色素標識可逆性ターミネーターヌクレオチドを用いた合成時解読(sequencing by synthesis)手法を使用し、固相架橋PCR(solid−phase bridge PCR)に基づくショートリードNGSである。最大10kbのDNA断片を含むペアエンドシークエンシングライブラリーの構築を使用することができる。反応により、1億回を超える、長さが35〜76塩基である短い読み取りが生じる。このデータは、1実行当たり3〜6ギガベースを生成することができる。
Applied Biosystemsが販売するOligo Ligation and Detection(SOLiD)システムによるシークエンシングは、ショートリード技術である。このNGS技術は、長さが最大10kbpである断片化された二本鎖DNAを使用する。このシステムは、色素標識オリゴヌクレオチドプライマーのライゲーション(ligation)およびエマルジョンPCRによるシークエンシングを使用して、10億の短い読み取りを生じさせ、それは、1実行当たり最大30ギガベースの総配列出力をもたらす。
Helicos BioscienceのtSMSおよびPacific BiosciencesのSMRTは、配列反応に単一DNA分子を使用する異なる手法を適用する。tSMS Helicosシステムは、最大8億の短い読み取りを生じさせ、それは、1実行当たり21ギガベースをもたらす。これらの反応は、「合成時解読」手法として記載されている蛍光色素標識仮想ターミネーターヌクレオチドを使用して完了される。
Pacific Biosciencesが販売するSMRT Next Generation Sequencingシステムは、リアルタイム合成時解読を使用する。この技術は、可逆性ターミネーターによって制限されない結果として、長さが最大1000bpの読み取りを生じることができる。二倍体ヒトゲノムの1倍のカバー率に等価である生の読み取りスループットを、この技術を使用して1日当たりに生じさせることができる。
導入遺伝子DNA配列が染色体DNA隣接配列および任意の染色体再配列と区別される場合のDNAシークエンシングデータの分析は、特に、多数の配列データセットについて手作業で行われる場合、時間がかかる。導入遺伝子DNA配列を手作業で同定およびアノテートし、これらの配列を、ゲノム内に導入遺伝子を組み込むことから生じる再配列、欠失、および付加と区別することは、労力を要する、困難なタスクであり、その結果は、人為的エラーを起こしやすい。
導入遺伝子がゲノム中に組み込まれていることを確認するため、およびランダムな組込みによって挿入され、または相同的組換えを介して部位特異的遺伝子座に標的化される場合、導入遺伝子の特定の染色体位置を同定するために、ハイスループット法が必要とされる。配列データを分析し、生物のゲノム内の導入遺伝子挿入部位を定義するための柔軟なハイスループット導入遺伝子隣接配列分析システムが提供される。本方法は、一実施形態では、例えば、下記に限定されないが、完全ゲノムの連続したDNA断片内で、導入遺伝子、および染色体隣接配列を含む導入遺伝子隣接配列を同定およびアノテートするステップを含む。分析システムは、一実施形態では、グラフィカルユーザーインターフェース、解析パイプライン、および入力配列のためのサマリー表示を含む。
例示的な実施形態では、本開示は、分析方法を含む。本方法は、配列データを電子的に受け取るステップと、少なくとも発現ベクターに関係する1つまたは複数の参照データ配列を電子的に受け取るステップと、参照データ配列の少なくとも1つと配列データを関連付けて導入遺伝子隣接配列を同定するステップと、ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索するステップと、1つまたは複数の挿入部位が発見された場合に、ゲノムとゲノム内の1つまたは複数の挿入部位とをアノテートするステップとを含む。
上記実施形態のいずれかのさらなる実施形態では、参照データは、少なくとも1つのプライマーにさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照データは、少なくとも1つのアダプターにさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照データは、少なくともプライマーおよびアダプターに関係している。上記実施形態のいずれかのさらなる実施形態では、参照データは、少なくとも1つのクローニングベクターにさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照データは、右クローニングベクターおよび左クローニングベクターにさらに関係している。
上記実施形態のいずれかのさらなる実施形態では、参照データは、左クローニングベクター、プライマー、アダプター、右クローニングベクター、および導入遺伝子発現ベクター配列の少なくとも1つにさらに関係している。
上記実施形態のいずれかの別のさらなる実施形態では、参照データは、クローニングベクター、プライマー、およびアダプターにさらに関係している。上記実施形態のいずれかの別のさらなる実施形態では、参照データは、左クローニングベクター、右クローニングベクター、プライマー、およびアダプターにさらに関係している。
上記実施形態のいずれかのさらなる実施形態では、本方法は、配列データ内の第1の参照データ配列を検索するステップと、前記第1の参照データ配列が特定された場合に、配列データ内の第2の参照データ配列を検索するステップとをさらに含む。上記実施形態のいずれかのさらなる実施形態では、第1の参照データ配列は、発現ベクター、アダプター、プライマー、およびクローニングベクター配列からなる群から選択される。上記実施形態のいずれかのさらなる実施形態では、第2の参照データ配列は、発現ベクター、アダプター、プライマー、およびクローニングベクター配列からなる群から選択され、第1の参照データ配列とは独立に選択される。上記実施形態のいずれかのさらなる実施形態では、第1の参照データ配列は、発現ベクターであり、第2の参照データ配列は、アダプターである。上記実施形態のいずれかのさらなる実施形態では、第1の参照データ配列および第2の参照データ配列は、プライマーおよびアダプターからなる群から独立に選択される。
上記実施形態のいずれかのさらなる実施形態では、参照データ配列と配列データを関連付けるステップは、参照データ配列の正確な配列を見つけることを含む。上記実施形態のいずれかの別のさらなる実施形態では、参照データ配列と配列データを関連付けるステップは、参照データ配列中の塩基対の5パーセントの誤差の範囲内で配列を見つけることを含む。
追加の例示的な実施形態では、本開示は、分析システムを含む。本実施形態では、本システムは、配列データを受け取るためのモジュール、少なくとも発現ベクターに関係した1つまたは複数の参照配列を受け取るためのモジュール、ならびに参照データ配列の少なくとも1つと配列データを関連付けて、導入遺伝子隣接配列を同定し、ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索し、1つまたは複数の挿入部位が発見された場合に、ゲノムとゲノム内の1つまたは複数の挿入部位とをアノテートするように作動可能な計算モジュールを含む。
上記実施形態のいずれかのさらなる実施形態では、参照配列は、少なくとも1つのプライマーにさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照配列は、少なくとも1つのアダプターにさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照配列は、少なくともプライマーおよびアダプターに関係している。上記実施形態のいずれかのさらなる実施形態では、参照配列は、少なくとも1つの発現ベクター配列にさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照配列は、少なくとも1つのクローニングベクターにさらに関係している。上記実施形態のいずれかのさらなる実施形態では、参照配列は、右クローニングベクターおよび左クローニングベクターにさらに関係している。
上記実施形態のいずれかのさらなる実施形態では、参照配列は、左クローニングベクター、プライマー、アダプター、右クローニングベクター、および発現ベクター配列の少なくとも1つにさらに関係している。
上記実施形態のいずれかの別のさらなる実施形態では、参照配列は、少なくともクローニングベクター、プライマー、およびアダプターにさらに関係している。上記実施形態のいずれかの別のさらなる実施形態では、参照配列は、少なくとも右クローニングベクター、左クローニングベクター、プライマー、およびアダプターにさらに関係している。
上記実施形態のいずれかのさらなる実施形態では、計算モジュールは、配列データ内の第1の参照データ配列を検索し、前記第1の参照データ配列が特定された場合に、配列データ内の第2の参照データ配列を検索するようにさらに作動可能である。上記実施形態のいずれかのさらなる実施形態では、第1の参照データ配列は、発現ベクター、アダプター、プライマー、およびクローニングベクター配列からなる群から選択される。上記実施形態のいずれかのさらなる実施形態では、第2の参照データ配列は、発現ベクター、アダプター、プライマー、およびクローニングベクター配列からなる群から選択され、第1の参照データ配列とは独立に選択される。上記実施形態のいずれかのさらなる実施形態では、第1の参照データ配列は、発現ベクターであり、第2の参照データ配列は、アダプターである。上記実施形態のいずれかのさらなる実施形態では、第1および第2の参照データ配列は、プライマーおよびアダプターからなる群から独立に選択される。
上記実施形態のいずれかのさらなる実施形態では、参照データ配列と配列データを関連付けることは、参照データ配列の正確な配列を見つけることを含む。上記実施形態のいずれかの別のさらなる実施形態では、参照データ配列と配列データを関連付けることは、参照データ配列中の塩基対の5パーセントの誤差の範囲内で配列を見つけることを含む。
本開示の追加の特徴および利点は、本発明を実施する最良モードを例示する例示的な実施形態の以下の詳細な説明を考慮すると、当業者に明らかとなるであろう。
図面の詳細な説明は、特に添付の図面に言及するものである。
本開示の実施形態による、左クローニングベクター、プライマー、発現ベクター、導入遺伝子隣接領域配列、アダプター、および右クローニングベクターを含む、生成される一般的な配列を示す例示的な図である。 本開示の実施形態による、ゲノム配列のセクション同士間に挿入される、発現ベクター、プライマー配列、および導入遺伝子隣接領域配列を含むゲノム内の導入遺伝子挿入を示す例示的な図である。 本開示の実施形態による、試料入力から分析システムへのデータおよび試料のフローを示す図である。 本開示の実施形態による、データ分析方法を示す流れ図を示す図である。 本開示の実施形態によるデータ分析器の系統図である。 本開示の実施形態による、データ分析の方法を示す流れ図である。 図4の流れ図による、隣接配列同定処理配列または方法を示す流れ図である。 導入遺伝子隣接配列を同定およびマークする方法を示す流れ図である。 図5Aの流れ図によって導入遺伝子隣接配列を同定する方法の別の実施形態を示す流れ図である。 本開示の実施形態による例示的な配列の図である。 本開示の実施形態による同定システムの例示的な入力画面の図である。 本開示の実施形態による分析システムからの例示的な出力の図である。 発現ベクター、アダプター、プライマー、および導入遺伝子隣接配列の場所を示す例示的な画面の図である。 図9Aでグラフィカルに同定された入力配列の図である。 図9Aでグラフィカルに同定された導入遺伝子発現ベクター103の配列の図である。 図9Aでグラフィカルに同定されたアダプター配列の図である。 図9Aでグラフィカルに同定されたプライマー配列の図である。 図9Bの入力配列から同定された導入遺伝子に隣接するゲノム配列の図である。 プライマーを含むが、右クローニングベクターをまったく含まない導入遺伝子隣接配列を示す例示的な画面の図である。 発現ベクター配列を含むが、クローニングベクターをまったく含まない導入遺伝子隣接配列を示す例示的な画面コピーの図である。
対応する参照文字は、いくつかの図にわたって対応する部分を示す。本明細書で提示した例示は、本開示の例示的な実施形態を説明し、このような例示は、いずれの様式でも本開示の範囲を限定するものとして解釈されるべきでない。
本明細書に記載の本開示の実施形態は、網羅的であることを、または開示した正確な形態に本開示を限定することを意図していない。むしろ、説明のために選択した実施形態は、当業者が本開示の主題を実行することを可能にするように選ばれている。本開示は、分析システムの特定の構成を記載するものであるが、本明細書に提示の概念は、本開示と一致する他の様々な構成において使用され得ることが理解されるべきである。さらに、導入遺伝子隣接配列の分析が論じられているが、本明細書の教示は、他の配列の分析に適用することができる。記載したシステムおよび方法は、導入遺伝子隣接配列を同定し、特徴付けるための任意の分子法からの出力に適用可能であり得、本システムおよび方法は、ゲノム内の1つまたは複数の導入遺伝子挿入部位を特定する自動化された方法を提供する。一実施形態では、本方法およびシステムは、挿入部位におけるまたはその付近の局所環境内で再配列が存在するか否かを判定するために、近隣配列、および挿入部位の周囲の局所環境も提供する。
理想的な単離された挿入配列は、図1Aを参照して示す実施形態によれば、左クローニングベクター101、プライマー105、導入遺伝子隣接領域配列107、導入遺伝子発現ベクター配列103、アダプター109、および右クローニングベクター111を含む。左クローニングベクター101および右クローニングベクター111は、クローニングベクターの一部であり、これは、DNAの第2の配列が中に挿入され得るDNAの第1の配列である。DNAの第2の配列を挿入すると、クローニングベクターが右(3’部分)クローニングベクター111および左(5’部分)クローニングベクター101に分けられる。一実施形態では、クローニングベクターの消化は、制限酵素によって、または当技術分野で公知の別の方法を介して完了され、それによって切断されたDNA断片がもたらされる。単一特異的部位でクローニングベクターを消化すると一般に、既知の左クローニングベクター101および右クローニングベクター111の配列が生じる。ゲノム配列中に挿入される挿入配列を、図1Bに関して示す。発現ベクター103は、標的細胞内に遺伝子を導入するのに使用される配列である。プライマー105は、DNA合成のプロセスを始めるのに使用される短いDNA配列である。発現ベクター103は一般に、ゲノム中に導入遺伝子を組み込むのに使用される配列である。導入遺伝子隣接領域配列107は、導入遺伝子挿入部位のすぐ上流または下流のゲノム配列であり、本実施形態では、この配列は、既知であっても、未知であってもよい。アダプター109は、導入遺伝子隣接配列107の末端にライゲートまたはアニールされる短いオリゴヌクレオチド配列である。本実施形態では、アダプター109の配列は既知であり、配列の末端をマークするのに使用され、未知の導入遺伝子隣接配列107を増幅またはシークエンス(配列決定)するのに使用することもできる。導入遺伝子隣接配列107は、組み込まれた導入遺伝子に隣接するゲノム組込み部位の染色体隣接領域からなる。導入遺伝子隣接配列は、染色体の特定の位置内に導入遺伝子を組み込むことから生じる欠失、反転、または挿入を含み得る。一実施形態では、単離された配列は、図1Aに例示したように左クローニングベクター101、プライマー105、発現ベクター配列103、導入遺伝子隣接領域配列107、アダプター109、および右クローニングベクター111として並べられているが、配列の順序は、図1Aおよび図1Bに例示したものに限定されない。
図1Bに示したように、プライマー105、発現ベクター103、導入遺伝子隣接領域配列107は、ゲノム配列中に挿入され、ゲノム配列内に現れる。アダプター配列は、導入遺伝子隣接配列を単離するのに使用される方法の一部として、後に組み入れられる。次いで、図1Aに表した得られた導入遺伝子隣接配列は、以下に示すデータ分析法を使用して引き続いて分析される。理想的な配列では、左クローニングベクター101、発現ベクター103、プライマー105、アダプター109、および右クローニングベクター111の配列は、すべて既知である。実際には、理想的な配列のセクションの1つまたは複数は、欠損している場合があり、または変化を含む場合がある。
図2Aは、試料入力から分析システム207へのデータおよび試料のフローを示す。図2Bは、本開示の実施形態によるデータ分析の方法を示す流れ図220を示す。ボックス221では、入力試料201が、例えば、かつ以下に限定されないが、ZFN開始導入遺伝子挿入プロトコールを用いて準備される。このプロトコールでは、既知配列の1つまたは複数の部分、例えば、プライマー105またはアダプター109などが、配列も既知である標的ゲノムに付加される。試料は、導入遺伝子挿入の他の方法によっても準備することができる。導入遺伝子挿入プロセスにより、ゲノム中の1つまたは複数の部位で挿入を有する修飾配列が作られる。例示的な修飾配列を図1Bに示す。
ボックス223では、1つまたは複数のシーケンサー(配列決定装置)205により、1つまたは複数の入力試料201から配列データが生成される。シーケンサー205は、ゲノム中の挿入の位置を同定するのに使用される導入遺伝子隣接領域配列を判定し、導入遺伝子挿入の特定配列を確認する。試料データは、本実施形態では、配列データを含む1つまたは複数のテキストファイルの形態である。
入力試料201は、シーケンサー205のプロトコールまたは取扱説明書に従って、シーケンサー205内に装填される。例えば、Solexa ILLUMINAブランドの配列決定機(sequencing machine)またはRoche454ブランドの配列決定機を使用することができる。シーケンサー205は、配列201に関係するデータを生成する。データは、以下に限らないが、入力試料201中のDNA鎖の配列に関係する情報を含有する、1つまたは複数のテキストファイル、標準フローグラム形式(Standard Flowgram Format)(「SFF」)もしくは同様のファイル、画像ファイル、または他のデータファイルを含み得る。一実施形態では、配列情報は、信頼度データも含み、その結果、配列中の各塩基は、それに関連する信頼区間を有することができ、または各配列は、それに関連する信頼区間を有する。信頼区間は、シーケンサーによって計算される数学的計算であり、シーケンサー205による特定の塩基の読み取りの強度を含み得る。例示的な一例では、信頼区間は、1〜9の整数である。この例では、1の信頼区間は、シーケンサー205が、報告された塩基がDNA鎖中の塩基であったことの相対的に低い信頼度を有することを示す。9の信頼区間は、シーケンサー205が、報告された塩基がDNA鎖中の塩基であったことの相対的に高い信頼度を有することを示す。一実施形態では、シーケンサー205は、信頼区間に加えて他の情報も報告する。例えば、シーケンサー205は、塩基をいつ読み取ることができなかったかを報告することができる。
シーケンサー205からのデータは、分析システム207に提供される。一実施形態では、データは、シーケンサーと分析システム207との間のネットワークもしくは専用接続によって、またはシーケンサーから分析システム207へのリムーバブル記憶装置によって、提供される。別の実施形態では、シーケンサーは、画面またはプリンターにデータをプリントし、データは、例えば、以下に限定されないが、キーボードまたはスキャナーから分析システム207に入力される。一実施形態では、分析システム207は、シーケンサーの一部である。
ボックス225では、参照試料情報203が分析システム207に伝送される。参照試料情報203は、以下に限らないが、単一配列として提供され得る左クローニングベクターおよび右クローニングベクター、発現ベクター103、プライマー105、ならびにアダプター109の配列を含み得る。配列情報は、一実施形態では、ネットワークを介して分析システム207に移される。別の実施形態では、参照試料情報203は、シーケンサー205からの配列情報とともに分析システム207に伝送される。
ボックス227では、以下により十分に記載するが、分析システム207は、1つまたは複数のシーケンサー205から配列データを受け取り、この配列データを分析する。分析システム207は、入力として参照試料データ203も採用する。参照試料データ203は、例えば、以下に限定されないが、アダプター109、プライマー105、左クローニングベクター101および/もしくは右クローニングベクター111、発現ベクター103の配列情報、または標的ゲノム配列情報を含み得る。一実施形態では、標的ゲノム配列データ全体が分析システム207に提供される。別の実施形態では、標的ゲノム配列全体のサブセットが分析システム207に提供される。さらに別の実施形態では、分析システム207は、標的ゲノム配列のすべてまたは一部についての要求を別のシステムに送る。分析システム207によって生成されるマッチした配列データおよび他のデータは、追加の処理を受ける。追加の処理として、以下に限らないが、可視化、定量化、他の試料もしくは他の試行からのデータの集合、または標的ゲノム配列との比較を挙げることができる。追加の処理は、一実施形態では、別のシステムによって実施される。別の実施形態では、分析システム207が追加の処理のすべてまたは一部を実施する。追加の処理を以下に記載する。
図3は、本開示の実施形態による分析システム207のコンポーネントビューを示す。分析システム207は、入力モジュール303、計算モジュール305、出力モジュール307、および可視化モジュール311を含むことができ、これらは、一実施形態では、分析システム207のメモリー315内に存在する。モジュールは、分析システム207の制御装置325によって実行することができる。一実施形態では、制御装置325は、1つまたは複数のプロセッサであり、制御装置325は、制御装置325およびメモリー315へのアクセスを制御するためのオペレーティングシステムソフトウェアを含む。メモリー315は、コンピューター可読媒体を含む。コンピューター可読媒体は、分析システム207の1つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体とすることでき、揮発性媒体および非揮発性媒体の両方を含む。さらに、コンピューター可読媒体は、リムーバブル媒体および非リムーバブル媒体の一方または両方であり得る。例として、コンピューター可読媒体として、以下に限らないが、RAM、ROM、EEPROM、フラッシュメモリー、もしくは他のメモリー技術、CD−ROM、デジタル多用途ディスク(DVD)、もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶装置、または所望の情報を記憶するのに使用することができ、分析システム207によってアクセスされ得る任意の他の媒体を挙げることができる。分析システム207は、単一システムであってもよく、または互いに連通している2つ以上のシステムであってもよい。一実施形態では、分析システム207は、1つまたは複数の入力デバイス、1つまたは複数の出力デバイス、1つまたは複数のプロセッサ、および1つまたは複数のプロセッサに関連したメモリーを含む。1つまたは複数のプロセッサに関連したメモリーとして、以下に限らないが、モジュールの実行に関連したメモリーおよびデータの記憶に関連したメモリーを挙げることができる。一実施形態では、分析システム207は、1つまたは複数のネットワークと関連付けられており、1つまたは複数のネットワークを介して1つまたは複数の追加のシステムと連通している。モジュールは、ハードウェアもしくはソフトウェア、またはハードウェアおよびソフトウェアの組合せの中で実装することができる。一実施形態では、分析システム207は、分析システム207が入力デバイス、出力デバイス、プロセッサ、メモリー、およびモジュールにアクセスすることを可能にするための追加のハードウェアおよび/またはソフトウェアも含む。モジュール、またはモジュールの組合せは、例えば、別個のシステム上の異なるプロセッサおよび/またはメモリーと関連付けることができ、システムは、互いに別々に設置することができる。一実施形態では、モジュールは、1つまたは複数のプロセスまたはサービスとして同じシステム上で実行される。モジュールは、互いに連通するように、かつ情報を共有するように作動可能である。モジュールは、互いに別々で異なるものとして記載されているが、2つ以上のモジュールの機能は、同じプロセス内で、または同じシステム内で代替として実行され得る。
入力モジュール303は、入力デバイス301からデータを受け取る。入力モジュール303はまた、別のシステムからネットワークを介してデータを受け取ることができる。例えば、以下に限定されないが、入力モジュール303は、1つまたは複数のネットワークを介してコンピューターから1つまたは複数の信号を受け取る。入力モジュール303は、入力デバイス301からデータを受け取り、データを再配列または再処理して、計算モジュール305によって認識できる形式にすることができ、その結果、データは、計算モジュール305によって解釈され得る。入力デバイス301は、一実施形態では、分析システム207に信号を送り、それから信号を受け取るようにユーザーが情報交換するクライアント304でありうる。クライアント304は、1つまたは複数のネットワーク302を介して分析システム207と連通することができる。
ネットワーク302は、ローカルエリアネットワーク、広域ネットワーク、IEEE802.11x通信プロトコールを使用する無線ネットワークなどの無線ネットワーク、ケーブルネットワーク、ファイバーネットワークもしくは他の光ネットワーク、トークンリングネットワークのうちの1つもしくは複数を含んでもよく、または任意の他の種類のパケット交換ネットワークを使用してもよい。ネットワーク302は、インターネットを含んでもよく、または任意の他のタイプのパブリックネットワークもしくはプライベートネットワークを含んでもよい。用語「ネットワーク」の使用は、ネットワークを単一のスタイルもしくはタイプのネットワークに限定せず、または1つのネットワークが使用されることを暗示する。任意の通信プロトコールまたはタイプのネットワークの組合せを使用してもよい。例えば、2つ以上のパケット交換ネットワークを使用してもよく、またはパケット交換ネットワークは、無線ネットワークと連通していてもよい。
入力デバイス301は、専用接続または任意の他のタイプの接続を介して入力モジュール303と連通することができる。例えば、以下に限定されないが、入力デバイス301は、ユニバーサルシリアルバス(「USB」)接続を介して、入力モジュール303へのシリアル接続もしくはパラレル接続を介して、または入力モジュール303への光リンクもしくは無線リンクを介して入力モジュール303と連通していてもよい。伝送は、1つまたは複数の物理的対象を介して行うこともできる。例えば、シーケンサーは、1つまたは複数のファイルを生成し、シーケンサーまたはユーザーは、USB記憶装置またはハードドライブなどのリムーバブル記憶装置に1つまたは複数のファイルをコピーし、ユーザーは、シーケンサーからリムーバブル記憶装置を取り出し、分析システム207の入力モジュール303にこれを取り付けることができる。入力デバイス301と入力モジュール303との間で連通するのに、任意の通信プロトコールを使用することができる。例えば、以下に限定されないが、USBプロトコールまたはブルートゥースプロトコールを使用することができる。
一実施形態では、入力デバイス301は、シーケンサーである。シーケンサーは、1つまたは複数の試料を分析し、1つまたは複数の試料に関する配列データを生成する。シーケンサーは、無線または有線接続を介して入力モジュール303に配列データを通信することができる。
一実施形態では、データは、1つまたは複数のファイルの形態であり、またはシーケンサーは、データを画面またはプリンターにプリントすることができ、データは、例えば、以下に限定されないが、キーボード、マウス、またはスキャナーによって分析システム207に入力される。一実施形態では、シーケンサーは、試料を記述する追加のデータも含む。
計算モジュール305は、入力モジュール303から入力を受け取り、入力に基づいて1つまたは複数の処理シーケンスを実行する。例えば、以下に限定されないが、計算モジュール305は、配列についての配列情報および参照試料情報を受け取る。試料データは、配列情報、例えば、以下に限定されないが、プライマー105、左クローニングベクターおよび/もしくは右クローニングベクター111、発現ベクター103、ならびに/または標的ゲノムを含む。試料データは、ユーザー、シーケンサー、第三者システム、分析システム207と関連した別のシステム、これらの入力または他の適当な源の2つ以上の組合せによって分析システム207に提供され得る。試料データは、標準形式のテキストファイルとして分析システム207に提供され得る。例えば、以下に限定されないが、テキストファイルは、FASTA形式でフォーマットすることができる。別の実施形態では、試料データ情報は、1つまたは複数のテキスト入力フィールドに情報をタイプし、または貼り付けることによって分析システム207に入力することができる。情報は、FASTA形式、または別の標準化形式でフォーマットすることができる。別の実施形態では、他の形式を使用することができる。例えば、Genbank(登録商標)形式、または別の形式を使用することができる。分析システム207は、特定の形式で試料データを受け取ることができ、分析システム207によってさらに分析されるようにデータをフォーマットすることができる。
計算モジュール305は、入力配列内のベクターおよび/またはアダプター109を同定し、入力配列の配向を同定し、入力配列内のベクターおよび/またはアダプター109に基づいて入力配列内の導入遺伝子隣接配列の位置を確認するために、1つまたは複数のアルゴリズムを適用し、可能である場合、入力配列に関係するゲノム情報を受け取り、ゲノムに隣接配列をマッピングするように試みる。アルゴリズムは、入力配列に関係する追加の定量的および定性的データを生成する。さらに、一実施形態では、入力配列は、アノテートおよび分析され、かつ/または可視化される。入力配列を同定およびアノテートするのに使用されるアルゴリズムおよびプロセスは、図4、図5A、図5B、および図5Cに示した流れ図に関して記載されている。
計算モジュール305は、出力として、例えば、配列およびゲノム中のこれらの場所に関するデータ、ならびに/または配列の1つまたは複数を可視化するために可視化モジュールによって使用される追加のデータを提供する。
可視化モジュール311は、計算モジュール305から入力配列およびアノテーションに関する入力としてデータを受け取る。可視化モジュール311は、ユーザーが配列および/またはアノテーションを可視化および/または操作するのを可能にする。一実施形態では、可視化モジュール311は、Gbrowse、またはGbrowseの改良版を使用することができる。他の配列可視化ソフトウェアプログラムも、追加の実施形態において使用することができる。ユーザーは、標的配列、または標的配列およびゲノム、の視覚表示を操作する能力を有することができる。可視化モジュールは、ユーザーがゲノム中の標的配列の位置、またはゲノム内の対象とする他の配列の位置を閲覧することを可能にする。可視化ステップは、ユーザーがゲノム内の標的配列、およびゲノムの他の配列に対する位置または変化を特定することを可能にする。この可視化は、導入遺伝子隣接配列を分析するのに有用であり得る。
出力モジュール307は、入力を受け取り、入力を出力デバイス309に伝送する。一実施形態では、出力モジュール307は、計算モジュール305、可視化デバイス311、または計算モジュール305および可視化デバイス311の両方から入力を受け取る。受け取られるデータは、英数字データの形態であってもよく、出力デバイス309に理解可能な形式にデータを再フォーマットし、出力デバイス309にデータを伝送する。出力モジュール307および出力デバイス309は、互いに連通している。例えば、以下に限定されないが、出力モジュール307および出力デバイス309は、ネットワークを介して連通しており、または専用接続、例えば、ケーブルもしくは無線リンクなどを介して連通している。出力モジュール307は、計算モジュール305から受け取ったデータを、出力デバイス309が使用できる形式に再フォーマットすることもできる。例えば、出力モジュール307は、出力デバイス309が読み取ることができる1つまたは複数のファイルを作ることができる。
出力デバイス309は、一実施形態では、可視化システム、別のデータ分析システム207、またはデータ記憶システムである。出力モジュール307は、1つまたは複数の電子ファイルを出力デバイス309に伝送することによって、出力デバイス309と通信する。伝送は、専用リンク、例えば、USB接続もしくはシリアル接続を介して行うことができ、または1つまたは複数のネットワーク接続を介して行うことができる。伝送は、1つまたは複数の物理的対象を介して行うこともできる。例えば、出力モジュール307は、1つまたは複数のファイルを生成することができ、USB記憶装置またはハードドライブなどのリムーバブル記憶装置に1つまたは複数のファイルをコピーすることができ、ユーザーは、分析システム207からリムーバブル記憶装置を取り出し、可視化システム、別のデータ分析システム207、またはデータ記憶システムにこれを取り付けることができる。
図4は、本開示の実施形態によるデータ分析の方法を示す流れ図を示す。ボックス401では、1つまたは複数の準備プロトコールに従って試料が準備され、未知の試料が導入遺伝子を挿入して作られる。
ボックス403では、未知の試料が配列決定される。配列決定(シークエンシング)は、シーケンサーのプロトコールまたは取扱説明書に従って行うことができる。例えば、Solexa ILLUMINAブランドの配列決定機またはRoche454ブランドの配列決定機を使用することができる。シーケンサーは、配列に関係するデータを生成する。データは、以下に限らないが、試料中のDNA鎖の配列に関係する情報を含む1つまたは複数のテキストファイルまたは他のデータファイルを含み得る。一実施形態では、配列情報は、信頼度データも含み、その結果、配列中の各塩基は、それに関連する信頼区間を有することができ、または各配列は、それに関連する信頼区間を有する。信頼区間は、シーケンサーによって計算される数学的計算であり、シーケンサーによる特定の塩基の読み取りの強度を含み得る。例示的な一例では、信頼区間は、1〜9の整数である。この例では、1の信頼区間は、シーケンサーが、報告された塩基がDNA鎖中の塩基であったことの相対的に低い信頼度を有することを示す。9の信頼区間は、シーケンサーが、報告された塩基がDNA鎖中の塩基であったことの相対的に高い信頼度を有することを示す。一実施形態では、シーケンサーは、信頼区間に加えて他の情報も報告する。例えば、シーケンサーは、塩基をいつ読み取ることができなかったかを報告することができる。
ボックス405では、シーケンサーからのデータが、分析システム207内に入力され、このシステムは、配列決定された入力配列のそれぞれの中の隣接配列を特定し、同定する。隣接配列は、入力配列のそれぞれの中に存在しない場合があり、またはシステムは、入力配列中の隣接配列の位置を同定することができない場合がある。隣接配列が特定され、同定されている配列は、システムによって記録され、隣接配列が特定されていない配列、または隣接配列が特定されているが、同定されていない配列も、システムによって記録される。システムは、配列データ、およびシステムによって行われた分析に基づいて、出力データを生成する。配列データの例示的な分析はまた、図5A〜5Cを参照して以下に記載されている。
ボックス407では、システムは、配列データ、およびシステムによって決定された隣接配列位置情報に対する処理後分析を実施する。配列データ、標的ゲノム、および/または隣接配列位置情報は、可視化することができ、定性的測定を、データを用いて行うことができ、かつ/または定量的測定を、データを用いて行うことができる。
図5Aは、隣接配列同定に関して分析システム207によって実行される例示的な方法を示す流れ図である。ボックス501では、入力配列を生成するプロトコールの一部として使用される発現ベクター103が、システム中に入力される。いくつかの実施形態では、右クローニングベクターおよび左クローニングベクター、プライマー105、ならびに/またはアダプター109の配列の1つまたは複数も提供される。より特定の実施形態では、右クローニングベクターおよび左クローニングベクター、プライマー105、ならびにアダプター109の配列のそれぞれも提供される。クローニングベクター、発現ベクター103、プライマー105、およびアダプター109の配列は、一般に既知であり、その結果、これらは、ゲノム内で同定し、特定することができる。既知配列の情報がシステム中に入力されて、入力配列と比較される際に配列の同定が可能になる。
ボックス503では、入力配列が、シーケンサー、または1つもしくは複数のファイルから受け取られる。1つまたは複数のファイルは、例えば、ネットワークを介してシステムに伝送することができ、または別の方法でシステムに提供されることができる。配列情報がシーケンサーから受け取られる場合、これは、例えば、ネットワークを介してシステムに伝送することができる。一実施形態では、配列情報は、システムに伝送することができ、システムが読み取ることができる電子形態である。配列情報は、一実施形態では、配列情報が伝送中に破損または変更されていないことを保証するための検証データまたは他の追加のデータを含み得る。別の実施形態では、配列情報は、1つまたは複数のデータベース中に記憶され、1つまたは複数のデータベースからシステムに、例えば、ネットワークを介して伝送される。さらに、ゲノム情報は、ネットワークを通じて別のデータベースから受け取られ得る。例えば、ゲノム情報は、公的にアクセス可能なデータベース、または個人的にアクセス可能なデータベース中に記憶することができ、ゲノム情報をシステムが要求することができ、ゲノム全体、またはゲノムの要求された部分は、要求の少なくとも一部基づいてシステムに伝送することができる。
ボックス505では、分析システム207は、発現ベクター103を含む既知配列との類似性について入力配列を検索する。ステップ501で提供されている場合、分析システム207は、クローニングベクター、プライマー105、および/またはアダプター109の配列との類似性をさらに検索することができる。これらの配列の1つまたは複数がステップ501で提供されていない場合、分析システム207は、その配列を見つからなかったとして処理する。分析システム207は、異なる配列を検索するのに異なる検索パラメータを使用することができる。例えば、一実施形態では、分析システム207は、プライマー105およびアダプター109を同定するのに、より厳しいセットの検索パラメータを使用することができ、その理由は、これらがより短い配列であり、修飾されている可能性が低いためである。分析システム207は、入力配列中の他の配列を検索するのに、比較的それほど厳しくない検索パラメータを使用することができ、その理由は、これらがより長く、かつ/またはゲノム中に導入遺伝子を組み込む間に変更されている可能性が高いためである。一実施形態では、分析システム207は、発現ベクター103を同定するのに正確な配列を見つけなければならない。別の実施形態では、発現ベクター103の配列が誤差の範囲内で見つかる場合、分析システム207は、発現ベクター103を同定する。例えば、誤差の範囲は、発現ベクター103の配列中の塩基対の5パーセントとすることができる。別の実施形態では、誤差の範囲は、5パーセント超またはそれ未満である。
一実施形態では、分析システム207は、入力配列と、クローニングベクター、導入遺伝子発現ベクター103、プライマー105、および/またはアダプター109の配列からなる既知配列との間の配列類似性を検索するのに、LASTZ整列プログラムおよびアルゴリズムを使用する。LASTZプログラムは、Harris、R.S.(2007)、Improved pairwise alignment of genomic DNA.、博士論文、ペンシルベニア州立大学に記載されており、その開示は、その全体が参照により本明細書に組み込まれている。LASTZプログラムは、2種類の配列類似性検索を実施する。第1の種類の配列類似性検索は、LASTZプログラムの特定のパラメータ設定である、「正確な検索(exact search)」である。「正確な検索」は、95%の同一性、配列中にギャップのないこと、および配列内で少なくとも15の完全な文字の一致を必要とする。配列の「スコア」を決定するのにスコアリングマトリックスが使用され、このマトリックスは、標的配列とのマッチについての1、および標的配列とのミスマッチについての−10を含む。この検索は、提供される場合、入力配列内のプライマー105およびアダプター109を同定するのに使用され、その理由は、プライマー105およびアダプター109の配列は、短く、したがって実験中に修飾されている可能性が低いために、入力配列中のプライマー105およびアダプター109は、プライマー105およびアダプター109の試料配列と正確に同じであることが予期されるためである。第2の種類の配列類似性検索は、「緩い検索(loose search)」である。「緩い検索」は、「正確な検索」と同じ厳しい要求事項を有さない。この検索は、LASTZのデフォルトのパラメータを使用し、入力配列中の導入遺伝子発現ベクター103およびクローニングベクターの配列類似性を見つけるのに展開される。「緩い検索」は、導入遺伝子発現ベクター103およびクローニングベクターの配列のために使用され、その理由は、これらがより長く、したがって実験中に修飾されている可能性が高いためである。
参照データ配列と配列類似性を共有する、入力配列内の部分配列は、「タイプ」と標識される。本実施形態では、4つの可能な「タイプ」、すなわち、プライマー105、アダプター109、導入遺伝子発現ベクター103、およびクローニングベクターがある。プライマー105、アダプター109、導入遺伝子発現ベクター103、およびクローニングベクターの1つまたは複数が、ステップ501で提供されていない場合、ステップ503および505は、そのタイプについて省略される。例えば、入力配列と選択されたプライマー105の配列のいずれかとの間で高度に類似の配列は、「プライマー105タイプ」と標識され、または関連付けられる。同様に、ユーザーが、分析に含められるべき15の導入遺伝子発現ベクター103の配列を選択し、それぞれが入力配列内の部分配列と30の相同性を有する場合、450すべての配列がタイプ「導入遺伝子発現ベクター103」と関連付けられる。
ボックス507に示したように、プライマー105の配列と最高レベルの配列類似性および整列長で整列する配列は、「プライマー105タイプ」と分類される。同様に、アダプター109の配列と最高レベルの配列類似性および整列長で整列する配列は、「アダプター109タイプ」と分類される。整列長および整列スコアが入力配列中のアダプター109とプライマー105との間で同じである場合には、配列「タイプ」は、同記録となった配列のすべてから自由裁量で選ばれる。これらの2つの配列、「プライマー105タイプ」および「アダプター109タイプ」が最初に同定される。これらは、これらのモチーフの位置が、どの配列が増幅されたか、およびどのようにそれが配向しているかを示すので、最初に同定される。これらの2つの配列タイプを特定できる場合、これらの場所は、導入遺伝子およびクローニングベクター配列の位置を同定することになる。
ボックス509に示したように、プライマー105およびアダプター109の配列類似性についての検索が完了した後、分析システム207は、最も配列類似性を共有する導入遺伝子発現ベクター103について入力配列を検索する。この検索は、プライマー105に類似する配列が同定されたか否かに応じて、2つの異なる方法の1つで行われる。プライマー105の配列が入力配列中で同定された場合、プライマー105を含む最良のマッチが同定される。一実施形態では、プライマー105がステップ501で提供されていなかった、もしくはステップ507で同定されなかった場合、または導入遺伝子発現ベクター103の配列のいずれも、「プライマー105タイプ」と類似性を共有する配列を含まない場合、最良の全体的なマッチが考慮され、最高の配列類似性を有する導入遺伝子発現ベクター103が選ばれる。この文脈における「最良の全体的なマッチ」は、最高レベルの配列類似性および整列長を有するマッチを選ぶことを意味する。
導入遺伝子発現ベクター103が特定され、同定された後、既知のクローニングベクターとの配列類似性の整列を介したクローニングベクター配列の特定および同定が試みられる。推定上の導入遺伝子発現ベクター103の配列が同定された後、この配列の上流および下流の配列がさらに特徴付けられる。開始座標および終了座標において配列類似性を共有するクローニングベクターを同定するために、上流のクローニングベクター配列が照会される。先にアノテートされた配列(導入遺伝子発現ベクター103、プライマー105、およびアダプター109)は、照会されない。したがって、分析システム207は、先に同定された特徴から上流の領域との配列類似性について、すべての可能なクローニングベクターを検索する。次いで、分析システム207は、類似の様式で、先に同定された特徴クローニングベクターから下流の領域との配列類似性について、同定されたクローニングベクター配列情報を検索する。ベクターは、最高レベルの配列類似性および整列長を有するマッチを選ぶことによって同定される。
ボックス511に示したように、入力配列の配向が、可能な場合、同定される。比較およびさらなる計算を促進するために、分析システム207は、左手から右手の配向で、すなわち、左側に配列の5’末端および右側に配列の3’末端を伴って、入力配列を並べる試みをする。場合によっては、シーケンサーは、DNAのアンチセンス鎖を配列決定した場合があり、この場合、配列は、逆相補されなければならない。入力配列内の各「タイプ」(すなわち、プライマー105、アダプター109、クローニングベクター、および導入遺伝子発現ベクター103)の配列が同定された後、システムは、この情報を使用して、入力配列を同定し、かつ/またはこれを配向付ける。配向は、プライマー105およびアダプター109の配列の位置によって決定される。プライマー105がアダプター109の前に位置している順配向が、可視化の容易さのために好適である。
アンチセンス鎖からの入力配列の例を図6に示す。図6では、プライマー105の配列は、「TAAACA」として分析システム207に知られている。一実施形態では、入力配列605が分析システム207によって読み取られる場合、分析システム207は、入力配列605中のプライマー603の配列のいずれかも最初に見つけられない場合がある。分析システム207は、入力配列605を逆相補して逆相補配列607を解明し、プライマー105を逆相補配列607と比較する。分析システム207は、本例では、逆相補配列607内の部分配列に対するプライマー603の正確なマッチを見つける。分析システム207は、既知のプライマー603から配列609を単離し、逆相補配列607の分析を進める。一実施形態では、分析システム207は、代替として、既知のプライマー603の逆相補配列を配列605と比較し、逆相補プライマー配列603を同定した後、配列全体を逆相補して逆相補配列607を得ることができ、逆相補配列607を用いた処理を進めることができる。
ボックス513に示したように、導入遺伝子隣接配列は、入力配列、または配列が先のステップで逆相補された場合、逆相補配列の中で特定される。例示的な特定法は、図5Bおよび図5Cに関してより完全に記載されている。
ボックス515に示したように、導入遺伝子隣接配列は、先のステップで見つかった場合、ゲノム内で特定される。導入遺伝子隣接配列は、ゲノム内の組込み部位中で特定され、導入遺伝子挿入部位の上流または下流であり、発現ベクター配列と連続している。組込み部位は、マッチングアルゴリズムを使用して求められる。例えば、ベーシックローカルアライメント検索ツール(BLAST)アルゴリズムを使用することができる。BLASTアルゴリズムは、Altschul S.Fら、「Basic local alignment search tool.」、J Mol Biol.、1990年10月5日;215(3):403〜10に記載されており、その開示は、その全体が参照により本明細書に組み込まれている。BLAST検索の入力は、導入遺伝子隣接配列およびゲノムである。BLAST検索は、可能な場合、ゲノム中への導入遺伝子隣接配列の組込みの1つまたは複数の部位を特定する。BLAST検索の出力は、可能な組込み部位のリスト、および適合のためのスコアである。可能な限り多くの組込み部位を同定するために、すべてのマスキングおよび低複雑性フィルタリングは、この相同性検索に関して無効にされる。検索が実施された後、出力は、解析されて、適合についての最高スコアを有するトップヒットが見つけられる。トップヒットが同定された後、この領域は、導入遺伝子の推定上の組込み部位と見なされる。
所与の導入遺伝子組込み部位について、ゲノム中でアノテートされた、連結した内因性の上流および下流の遺伝子が、コンピュータースクリプトを使用して同定される。ゲノムアノテーションの入力ファイルが解析され、遺伝子が染色体によってインデックスされ、開始座標によって選別される。組込み部位が求められているとき、システムは、遺伝子座標の適切なリストを同定し、組込み部位についての正確な挿入点を同定するために二分検索を実施する。導入遺伝子組込み部位の座標の選別されたリストが現れる。この点から、組込み部位から10キロ塩基対超の配列が特定されるまで、リストが順方向に検索される。次いで、組込み部位から10キロ塩基(kb)対超の配列が特定されるまで、リストが逆方向に検索される。このようにして、組込み部位の上流および下流のゲノム中の遺伝子が、さらなる分析のためにアノテートされる。距離パラメータは、例えば、以下に限定されないが、組込み部位の10kb超または10kb未満に変更することができる。組込み部位からの他の範囲も使用することができる。
導入遺伝子組込み部位が入力配列について発見された場合、導入遺伝子と染色体隣接配列との間の配列が再配列、挿入、または欠失を含むか否かを判定することが重要である。組込み部位が変更されていない、すなわち、組込み部位の配列が、導入遺伝子組込みプロセスの間に再配列または修飾されて欠失または挿入をもたらしていないという信頼度をユーザーに与えるために、分析システム207は、染色体隣接配列と、先に述べたプロセスのいずれかにおいて使用された任意の他の配列「タイプ」との間に存在する重なりの量を計算する。この尺度は、ユニークかつ任意の他の配列類似性によって重なっていない入力配列類似性における塩基の数(unique_bases)と、入力配列類似性における塩基の総数(total_bases)との比として計算される。

この比は、組込み部位に定量値を与える。
図5A中の先のボックスからのアノテートされたデータは、一実施形態では、ボックス517中の目視検査のために提示することができる。可視化の例を図9Aおよび図10に示す。さらに、入力配列、導入遺伝子隣接配列、および/またはクローニングベクター、発現ベクター103、プライマー105、アダプター109、もしくは入力配列に関する追加の情報が、可視化のために提示される。導入遺伝子隣接配列、クローニングベクター、発現ベクター103、プライマー105、アダプター109、または入力配列に関するデータは、1つまたは複数の電子ファイルにも保存される。
図5Bは、導入遺伝子隣接配列850をマークする一般的な方法を示す流れ図である。ボックス852では、入力配列を生成するためのプロトコールの一部として使用される発現ベクター103がシステム中に入力される。いくつかの実施形態では、右クローニングベクターおよび左クローニングベクター、プライマー105、導入遺伝子発現ベクター配列103、およびアダプター109の配列の1つまたは複数も提供される。より特定の実施形態では、右クローニングベクターおよび左クローニングベクター、プライマー105、導入遺伝子発現ベクター配列103、およびアダプター109の配列のそれぞれも提供される。クローニングベクター、発現ベクター103、プライマー105、およびアダプター109の配列は、一般に既知であり、その結果、これらは、入力未知配列内で同定し、特定することができる。既知配列の情報は、システム中に入力されることによって、入力配列と比較される際に、配列の同定が可能になる。
ボックス854では、入力配列は、シーケンサー、または1つまたは複数のファイルから受け取られる。1つまたは複数のファイルは、例えば、ネットワークを介してシステムに伝送することができ、または別の方法でシステムに提供することができる。配列情報がシーケンサーから受け取られる場合、これは、例えば、ネットワークを介してシステムに伝送することができる。一実施形態では、配列情報は、システムに伝送することができ、システムが読み取ることができる電子形態である。配列情報は、一実施形態では、配列情報が伝送中に破損または変更されていないことを保証するための検証データまたは他の追加のデータを含み得る。別の実施形態では、配列情報は、1つまたは複数のデータベース中に記憶され、1つまたは複数のデータベースからシステムに、例えば、ネットワークを介して伝送される。さらに、ゲノム情報は、ネットワークを通じて別のデータベースから受け取られ得る。例えば、ゲノム情報は、公的にアクセス可能なデータベース、または個人的にアクセス可能なデータベース中に記憶することができ、ゲノム情報をシステムが要求することができ、ゲノム全体、またはゲノムの要求された部分は、要求の少なくとも一部に基づいてシステムに伝送することができる。
ボックス856では、分析システム207は、第1の参照配列、例示的には発現ベクター103を含む既知配列との類似性について入力配列を検索する。発現ベクター103がボックス858内で見つからない場合、本方法は、ボックス860に進む。発現ベクター103の欠如は、入力配列の作成または処理におけるエラーを示し得る。ボックス860では、入力配列は、失敗としてマークされ、ゲノムに対してマッチされない。一実施形態では、配列は、可視化される際に赤色としてマークされる。
発現ベクター103がボックス858内で発見された場合、方法850は、ボックス862に進む。一実施形態では、分析システム207は、ボックス862に進むために、発現ベクター103の正確な配列を見つけなければならない。別の実施形態では、分析システム207は、発現ベクター103の配列が誤差の範囲内で発見された場合、ボックス862に進むことができる。例えば、誤差の範囲は、発現ベクター103の配列中の塩基対の5パーセントとすることができる。別の実施形態では、誤差の範囲は、5パーセント超またはそれ未満である。
ボックス862では、分析システム207は、第2の参照配列、例示的にはアダプター配列109を含む既知配列との類似性について入力配列を検索する。アダプター配列109がボックス864内で発見された場合、本方法は、ボックス866に進む。アダプター配列109がボックス864内で発見されない場合、本方法は、ボックス880に進む。一実施形態では、分析システム207は、ボックス866に進むために、アダプター配列109の正確な配列を見つけなければならない。別の実施形態では、分析システム207は、アダプター配列109の配列が誤差の範囲内で発見された場合、ボックス866に進むことができる。例えば、誤差の範囲は、アダプター配列109の配列中の塩基対の5パーセントとすることができる。別の実施形態では、誤差の範囲は、5パーセント超またはそれ未満である。
アダプター配列が発見された場合、方法550は、ボックス866に進む。ボックス866では、分析システム207は、ボックス854内で入力された未知配列を同定するように試みる。一実施形態では、既知のアダプターは、さらなる処理の前に未知配列から取り出される。別の実施形態では、既知のアダプターは、さらなる処理の前に未知配列から取り出されない。未知配列が同定されている場合、本方法は、ボックス870に進む。未知配列が同定されていない場合、本方法は、ボックス878に進む。未知配列を同定することができないことは、配列の作成または処理におけるエラーを示し得る。ボックス878では、入力配列は、処理の失敗としてマークされる。一実施形態では、配列は、可視化される際に赤色としてマークされる。
ボックス870では、入力配列は、ゲノムに対して検索される。一実施形態では、低減された入力配列をゲノムにマッチさせるように試みるために、BLAST検索アルゴリズムが使用される。ボックス872では、入力配列がゲノムに対してマッチする場合、本方法は、ボックス874に進む。低減された入力配列がゲノム中のいずれの場所にもマッチしない場合、本方法は、ボックス876に進む。
ボックス874では、入力配列は、ゲノムの一部に対してマッチする。分析システム207は、ゲノム中の入力配列の位置を記録し、その位置の近隣領域中の対象とする領域も記録する。一実施形態では、分析システム207は、その位置の200キロ塩基対以内の対象とする領域を記録する。他の実施形態では、分析システム207は、より多い、またはより少ない量の塩基対以内の対象とする領域を記録する。一実施形態では、ユーザーは、分析システム207がその位置の周囲で記録する近隣領域のサイズを指定することができる。一実施形態では、配列は、可視化される際に緑色としてマークされる。
ボックス876では、入力配列は、ゲノムに対してマッチするのに失敗したとしてマークされる。低減された入力配列は、配列決定中に損傷されている場合があり、または不正確に配列決定されている場合がある。一実施形態では、配列は、可視化される際に橙色としてマークされる。
前述のように、ボックス864においてアダプター配列109が発見されない場合、方法850は、ボックス880に進む。ボックス880では、分析システム207は、ボックス854内で入力された未知配列を同定するように試みる。未知配列がボックス882で同定されている場合、本方法は、ボックス886に進む。未知配列が同定されていない場合、本方法は、ボックス884に進む。未知配列を同定するができないことは、配列の作成または処理におけるエラーを示し得る。ボックス884では、入力配列は、処理の失敗としてマークされる。一実施形態では、配列は、可視化される際に赤色としてマークされる。
ボックス886では、入力配列は、ゲノムに対して検索される。一実施形態では、低減された入力配列をゲノムにマッチさせるように試みるために、BLAST検索アルゴリズムが使用される。ボックス888では、入力配列がゲノムに対してマッチする場合、本方法は、ボックス890に進む。低減された入力配列がゲノム中のいずれの場所にもマッチしない場合、本方法は、ボックス892に進む。
ボックス890では、入力配列は、ゲノムの一部に対してマッチする。分析システム207は、ゲノム中の入力配列の位置を記録し、その位置の近隣領域中の対象とする領域も記録する。一実施形態では、分析システム207は、その位置の200キロ塩基対以内の対象とする領域を記録する。他の実施形態では、分析システム207は、より多い、またはより少ない量の塩基対以内の対象とする領域を記録する。一実施形態では、ユーザーは、分析システム207がその位置の周囲で記録する近隣領域のサイズを指定することができる。一実施形態では、配列は、可視化される際に緑色としてマークされる。
ボックス892では、入力配列は、ゲノムに対してマッチするのに失敗したとしてマークされる。低減された入力配列は、配列決定中に損傷されている場合があり、または不正確に配列決定されている場合がある。一実施形態では、配列は、可視化される際に橙色としてマークされる。
図5Cは、プライマー105、アダプター109、または両方の既知配列がステップ501で提供されている図5Aの流れ図に従って導入遺伝子隣接配列507をマークする別の方法を示す流れ図である。ボックス551では、分析システム207は、入力配列中のプライマー105およびアダプター109として同定された配列を検索する。
ボックス553では、分析システム207は、入力配列内のアダプター109およびプライマー105を検索する。アダプター109およびプライマー105の配列の両方がステップ501で提供され、入力配列内で発見された場合、本方法は、ボックス559に進む。アダプター109またはプライマー105の配列のいずれかが入力配列内で発見されない場合、またはアダプター109またはプライマー105の配列のいずれかがステップ501で提供されていない場合、本方法は、ボックス555に進む。一実施形態では、分析システム207は、ボックス559に進むために、アダプター109およびプライマー105の配列の両方の正確な配列を見つけなければならない。別の実施形態では、アダプター109およびプライマー105の配列が誤差の範囲内で発見された場合、分析システム207は、ボックス559に進むことができる。例えば、誤差の範囲は、アダプター配列109またはプライマー105の配列中の塩基対の5パーセントとすることができる。別の実施形態では、誤差の範囲は、5パーセント超またはそれ未満である。別の実施形態では、プライマー105の誤差の範囲とアダプター109の誤差の範囲は異なる。
ボックス559では、アダプター109およびプライマー105の既知配列が入力配列から取り出され、その結果、入力配列は、アダプター109とプライマー105との間の配列へと低減される。低減された入力配列がゲノムに対して検索される。一実施形態では、低減された入力配列をゲノムにマッチさせるように試みるために、BLAST検索アルゴリズムが使用される。
ボックス563において、低減された入力配列がゲノムに対してマッチする場合、本方法は、ボックス571に進む。低減された入力配列がゲノム中のいずれの場所にもマッチしない場合、本方法は、ボックス565に進み、この入力配列は、ゲノムに対してマッチするのに失敗したとしてマークされる。低減された入力配列は、配列決定中に損傷されている場合があり、または不正確に配列決定されている場合があり、またはアダプター109およびプライマー105は、低減された入力配列をまったく残さないで、配列内で互いに隣接している場合がある。一実施形態では、配列は、可視化される際に橙色としてマークされる。
ボックス571では、低減された入力配列は、ゲノムの一部に対してマッチする。分析システム207は、ゲノム中の入力配列の位置を記録し、その位置の近隣領域中の対象とする領域も記録する。一実施形態では、分析システム207は、その位置の200キロ塩基対以内の対象とする領域を記録する。他の実施形態では、分析システム207は、より多い、またはより少ない量の塩基対以内の対象とする領域を記録する。一実施形態では、ユーザーは、分析システム207がその位置の周囲で記録する近隣領域のサイズを指定することができる。一実施形態では、配列は、可視化される際に緑色としてマークされる。
アダプター109およびプライマー105の両方が入力配列内で発見されない、またはアダプター109およびプライマー105の配列が、分析システム207もしくはユーザーによって設定された許容範囲内で発見されない場合、本方法は、ボックス553からボックス555に進む。ボックス555では、分析システム207は、アダプター109またはプライマー105の配列のいずれかが入力配列中で発見されたか否かを判定する。アダプター109またはプライマー105の配列のいずれかが入力配列中で発見された場合、本方法は、ボックス561に進む。アダプター109およびプライマー105の配列の両方が入力配列中で発見されない場合、本方法は、ボックス557に進む。
ボックス557では、アダプター109もプライマー105も、入力配列内で発見されていない。プライマー105およびアダプター109がないことは、入力配列の作成または処理におけるエラーを示し得る。入力配列は、失敗としてマークされ、ゲノムに対してマッチされない。一実施形態では、配列は、可視化される際に赤色としてマークされる。
ボックス561では、アダプター109またはプライマー105の配列のいずれかが、入力配列内で発見されている。一実施形態では、アダプター109またはプライマー105の配列が、誤差の範囲内で入力配列内に発見されている。アダプター109またはプライマー105の配列が欠損していることは、入力配列の入力配列が、入力配列の5’または3’末端に及び、したがって、入力配列が入力配列の配列全体を捕捉していないことを示す。既知のアダプター109または既知のプライマー105は、どちらが入力配列中に存在しても、入力配列から取り出され、その結果、入力配列は、アダプター109とプライマー105との間の配列に低減される。ボックス567に示したように、低減された入力配列がゲノムに対して検索される。一実施形態では、低減された入力配列をゲノムにマッチさせるように試みるために、BLAST検索アルゴリズムが使用される。
ボックス567において、低減された入力配列がゲノムに対してマッチする場合、本方法は、ボックス573に進む。低減された入力配列がゲノム中のいずれの場所にもマッチしない場合、本方法は、ボックス569に進み、この入力配列は、ゲノムに対してマッチするのに失敗したとしてマークされる。低減された入力配列は、配列決定中に損傷されている場合があり、または不正確に配列決定されている場合があり、またはアダプター109およびプライマー105は、低減された入力配列をまったく残さないで、配列内で互いに隣接している場合がある。一実施形態では、配列は、可視化される際に橙色としてマークされる。
ボックス573では、低減された入力配列は、ゲノムの一部に対してマッチする。分析システム207は、ゲノム中の入力配列の位置を記録し、その位置の近隣領域中の対象とする領域も記録する。一実施形態では、分析システム207は、その位置の200キロ塩基対以内の対象とする領域を記録する。他の実施形態では、分析システム207は、より多い、またはより少ない量の塩基対以内の対象とする領域を記録する。一実施形態では、ユーザーは、分析システム207がその位置の周囲で記録する近隣領域のサイズを指定することができる。対象とする領域は、遺伝子をコードする配列、または他のゲノム情報を含み得る。対象とする領域は、第三者システム、例えば、分析システム207がゲノム配列情報を受け取ったシステムから受け取られ得る。一実施形態では、配列は、可視化される際に黄色としてマークされる。
図7は、分析システム207の試料入力画面を示す。ユーザーは、ボックス701で、一連の入力配列を選択することができる。入力配列は、配列情報を提供するための標準形態であり得、または分析システム207が解析および同定することができる形態とすることができる。ユーザーは、入力配列をマッピングするための生物のゲノムも選択することができる。ゲノムは、分析システム207によって提供することができ、その結果、ユーザーは、分析システム207に利用可能な1つまたは複数のゲノムを同定し、またはユーザーは、生物のゲノムについての配列情報を含む電子ファイルへの経路を提供することができる。ゲノムは、完全であっても、部分的であってもよい。ユーザーは、ボックス705において、実験で使用された、かつ入力配列中に存在するはずである1つまたは複数の発現ベクター103を選択する。ユーザーは、ボックス707、709、および711において、実験で使用された、かつ入力配列中に存在するはずであるベクター配列、プライマー105の配列、およびアダプター109の配列をそれぞれ選択する。次いでユーザーは、「サブミット」ボタンを押して、データインポートプロセスおよび分析を開始する。
図8は、本開示の実施形態による分析システム207の例示的な出力を示す。本実施形態では、「1」と標識された表の行は、染色体隣接配列が分析システム207によって正確に同定された入力配列を示す。これらの行は、他の行と区別するために色分けされ、例えば、緑色で色分けされていてもよい。「2」と標識された表の行は、染色体隣接配列は、同定されたが、検索されたすべての既知配列を同定することができず、その結果、例えば、アダプター109を入力配列内で特定することができなかったために、分析が異常を含む入力配列を示す。これらの行は、「1」と標識された表の行と異なる色としてコード化することができる。「3」と標識された表の行は、染色体隣接配列を同定することができなかった入力配列を示す。これらの行は、赤色として色分けされる。近隣という列は、組込み部位に近接するゲノム配列に由来する遺伝子を示す。
図9Aは、例示的なダイズイベント416からの特定の入力配列についての組込み部位分析のグラフ表示を提供する分析システム207のサマリー表示を示す。画像の頂部に、入力配列の座標が表示されている。このサマリー表示内に示されている残りの配列は、これらの座標と比べてアノテートされている。入力参照配列は、例示的な画面では、プライマー105および導入遺伝子発現ベクター103が画面の左手側に現れ、ゲノム隣接配列およびアダプター109が画面の右手側に現れるように配向されている。このグラフ表示は、イベント416(配列番号1)の入力配列を示し(図9Bとして示されている)、これは、その中の導入遺伝子発現ベクター103(「pDAB4468」;配列番号2)(図9Cとして示されている)、アダプター109(「Soybe−」;配列番号3)(図9Dとして示されている)、およびプライマー105(「ダイズ_プライマー」;配列番号4)(図9Eとして示されている)の配列を同定するようにアノテートされている。同定された染色体隣接配列は、実線(配列番号5)(図9Fとして示されている)としてアノテートされている。分析システム207は、この例では、染色体隣接配列をグリシンマックス(Glycine max)ゲノムと整列させた。染色体隣接配列は、780の配列類似性スコアで染色体4の領域46003248、46004030;96の配列類似性スコアで染色体6の領域11825430、11825559;29の配列類似性スコアで染色体15の領域24517407、24517435;および28の配列類似性スコアで染色体5の領域37323425、37323452に対して整列する。入力配列、導入遺伝子発現ベクター103、アダプター109、およびプライマー105は、図中で、グラフで表されている。
図10は、シロイヌナズナ(Arabidopsis thaliana)において使用するための分析システム207の適用を示す。入力配列についての組込み部位分析の直観的なグラフ表示を提供する分析システム207のサマリー表示が例示されている。画像の頂部に、入力配列の座標が表示されている。このサマリー表示内に示されている残りの配列は、これらの座標と比べてアノテートされている。グラフ表示は、クローニングベクター(「pCR2.1−TOP」)およびアダプター109(「1mAdp−Pri」)を同定するようにアノテートされているイベントの入力配列を示す。同定された染色体隣接配列は、実線としてアノテートされている。分析システム207は、染色体隣接配列をシロイヌナズナ(Arabidopsis)ゲノム配列と整列させた。染色体隣接配列は、シロイヌナズナ(Arabidopsis)ゲノム配列識別子1229090、1230015の特定領域に対して整列され、913の配列類似性スコアが報告されている。図10は、プライマー105を含むが、右クローニングベクター111をまったく含まない導入遺伝子隣接配列を示す。
図11は、トウモロコシに使用するための分析システム207の適用を示す。入力配列についての組込み部位分析の直観的なグラフ表示を提供する分析システム207のサマリー表示が例示されている。画像の頂部に、入力配列の座標が表示されている。このサマリー表示内に示されている残りの配列は、これらの座標と比べてアノテートされている。グラフ表示は、発現ベクター103(「pEPS1027」)を同定するようにアノテートされているイベントの入力配列を示す。同定された染色体隣接配列は、実線としてアノテートされている。分析システム207は、染色体隣接配列をトウモロコシゲノム配列と整列させた。染色体隣接配列は、トウモロコシ属ゲノム配列識別子5337731、5338124の特定領域に対して整列され、728の配列類似性スコアが報告されている。図11は、発現ベクター103を含むが、右クローニングベクターまたは左クローニングベクター101、111をまったく含まない導入遺伝子隣接配列を示す。
本開示を、例示的な設計を有するものとして記載してきたが、本開示は、本開示の趣旨および範囲内でさらに改変することができる。したがって、本願は、その一般的原理を使用して、本開示の任意のバリエーション、使用、または適応に及ぶことを意図している。さらに、本願は、本開示が属する当技術分野における公知の、または慣例的な実践の範囲内に入り、添付の特許請求の範囲の制限内に入るものとして、本開示からのこのような逸脱に及ぶことを意図している。
101 左クローニングベクター
103 発現ベクター
105 プライマー
107 導入遺伝子隣接領域配列
109 アダプター
111 右クローニングベクター
201 入力試料
203 参照試料データ
205 シーケンサー
207 分析システム
209 遠隔システム
220 流れ図
221 試料を準備する
223 試料を処理して配列を得る
225 参照試料情報を受け取る
227 参照試料情報に基づいて配列を分析する
301 入力デバイス
302 ネットワーク
303 入力モジュール
304 クライアント
305 計算モジュール
307 出力モジュール
309 出力デバイス
311 可視化モジュール
313 オペレーティングシステムソフトウェア
315 メモリー
317 試料データ
325 制御装置
401 試料および分析方法を準備する
403 シークエンシング
405 隣接配列を同定する
407 データを後処理する
501 既知のベクター、アダプター、および/またはプライマー配列を選択する/受け取る
503 未知の入力配列を受け取る
505 相同性および配列類似性の検索
507 既知のプライマーおよびアダプターとの類似性の高い配列の同定
509 発現ベクターの類似性
511 入力配列の配向を同定する
513 導入遺伝子隣接配列を特定して出力する
515 ゲノムに隣接配列をマッピングする
517 隣接配列の位置を可視化する
551 プライマーおよびアダプターの検索
553 プライマー及びアダプターは発見されたか?
555 プライマー又はアダプターは発見されたか?
557 処理を失敗した配列−赤色でマークする
559 既知配列を取り出し、ゲノムに対して未知なものを検索する
561 既知配列を取り出し、ゲノムに対して未知なものを検索する
563 ゲノム中で未知か?
565 処理を失敗した配列−橙色でマークする
567 ゲノム中で未知か?
569 処理を失敗した配列−橙色でマークする
571 ゲノム中の配列の位置を記録し、緑色でマークする
573 ゲノム中の配列の位置を記録し、黄色でマークする
603 プライマー
605 入力配列
607 逆相補配列
609 配列
701 ボックス(一連の入力配列を選択する)
703 シロイヌナズナ(arabidopsis)
705 ボックス(実験で使用された、かつ入力配列中に存在するはずである1つまたは複数の発現ベクター103を選択する)
707 ボックス(ベクター配列を入力する)
709 ボックス(プライマー105の配列を入力する)
711 ボックス(アダプター109の配列を入力する)
850 方法
852 入力未知配列を提供する
854 入力参照配列を提供する
856 未知配列内の発現ベクターを検索する
858 発現ベクターは発見されたか?
860 処理を失敗した配列−赤色でマークする
862 未知配列内のアダプター配列を検索する
864 アダプター配列は発見されたか?
866 未知配列の同定を試みる
868 配列は同定されたか?
870 ゲノムに対して未知なものを検索する
872 ゲノム中で未知か?
874 ゲノム中の配列の位置を記録し、緑色でマークする
876 処理を失敗した配列−橙色でマークする
878 処理を失敗した配列−赤色でマークする
880 未知配列の同定を試みる
882 配列は同定されたか?
884 処理を失敗した配列−赤色でマークする
886 ゲノムに対して未知なものを検索する
888 ゲノム中で未知か?
890 ゲノム中の配列の位置を記録し、緑色でマークする
892 処理を失敗した配列−橙色でマークする

Claims (38)

  1. 配列データを電子的に受け取るステップと、
    少なくとも発現ベクターに関係する1つまたは複数の参照データ配列を電子的に受け取るステップと、
    参照データ配列の少なくとも1つと配列データを関連付けて導入遺伝子隣接配列を同定するステップと、
    ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索するステップと、
    前記検索ステップで1つまたは複数の挿入部位が発見された場合に、ゲノムとゲノム内の1つまたは複数の挿入部位とをアノテートするステップと
    を含む、分析方法。
  2. 参照データが、左クローニングベクター、プライマー、アダプター、および右クローニングベクターの少なくとも1つにさらに関係している、請求項1に記載の分析方法。
  3. 参照データが、左クローニングベクター、プライマー、アダプター、および右クローニングベクターにさらに関係している、請求項1に記載の分析方法。
  4. 配列データ内の第1の参照データ配列を検索するステップと、
    前記第1の参照データ配列が特定された場合に、配列データ内の第2の参照データ配列を検索するステップと
    をさらに含む、請求項1に記載の分析方法。
  5. 第1の参照データ配列が、発現ベクター、アダプター、プライマー、およびクローニングベクターからなる群から選択される、請求項4に記載の分析方法。
  6. 第2の参照データ配列が、発現ベクター、アダプター、プライマー、およびクローニングベクターからなる群から選択され、第1の参照データ配列とは独立に選択される、請求項5に記載の分析方法。
  7. 第1の参照データ配列が発現ベクターであり、第2の参照データ配列がアダプターである、請求項4に記載の分析方法。
  8. 第1の参照データ配列および第2の参照データ配列が、プライマーおよびアダプターからなる群から独立に選択される、請求項4に記載の分析方法。
  9. 導入遺伝子隣接配列および参照データを可視化するステップをさらに含む、請求項1に記載の方法。
  10. ゲノム内の1つまたは複数の挿入部位を可視化するステップをさらに含む、請求項1に記載の分析方法。
  11. 挿入部位の上流および下流のゲノムの配列情報を特徴付けるステップをさらに含む、請求項1に記載の分析方法。
  12. 挿入部位の10キロ塩基対上流および10キロ塩基対下流のゲノムの配列情報が特徴付けられる、請求項11に記載の分析方法。
  13. 配列データを参照データ配列の1つまたは複数と整列させるステップと、
    整列された配列の定性分析を行うステップと
    をさらに含む、請求項1に記載の分析方法。
  14. 配列データを参照データ配列の1つまたは複数と整列させるステップと、
    整列された配列の定量分析を行うステップと
    をさらに含む、請求項1に記載の分析方法。
  15. ゲノムが、植物ゲノムの少なくとも一部である、請求項1に記載の方法。
  16. 参照データ配列の少なくとも1つと配列データを関連付けるステップが、配列データに対して参照データ配列の少なくとも1つをマッチさせるアルゴリズムを使用することを含む、請求項1に記載の分析方法。
  17. アルゴリズムがLASTZアルゴリズムである、請求項16に記載の分析方法。
  18. ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索するステップが、少なくとも1つの挿入部位の上流および下流の配列をゲノムとともに特定するアルゴリズムを使用することを含む、請求項1に記載の分析方法。
  19. アルゴリズムがBLASTアルゴリズムである、請求項18に記載の分析方法。
  20. 配列に関係した配列データを受け取るためのモジュール、
    少なくとも発現ベクターに関係した1つまたは複数の参照配列を受け取るためのモジュール、ならびに
    参照データ配列の少なくとも1つと配列データを関連付けて、導入遺伝子隣接配列を同定し、
    ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索し、
    1つまたは複数の挿入部位が発見された場合に、ゲノムとゲノム内の1つまたは複数の挿入部位とをアノテートする
    ように作動可能な計算モジュール、
    を含む、分析システム。
  21. 参照配列が、左クローニングベクター、プライマー、アダプター、および右クローニングベクターの少なくとも1つにさらに関係している、請求項20に記載の分析システム。
  22. 参照配列が、左クローニングベクター、プライマー、アダプター、および右クローニングベクターにさらに関係している、請求項20に記載の分析システム。
  23. 前記計算モジュールが、
    配列データ内の第1の参照データ配列を検索し、
    前記第1の参照データ配列が特定された場合に、配列データ内の第2の参照データ配列を検索する
    ようにさらに作動可能である、請求項20に記載の分析システム。
  24. 第1の参照データ配列が、発現ベクター、アダプター、プライマー、およびクローニングベクターからなる群から選択される、請求項23に記載の分析システム。
  25. 第2の参照データ配列が、発現ベクター、アダプター、プライマー、およびクローニングベクターからなる群から選択され、第1の参照データ配列とは独立に選択される、請求項24に記載の分析システム。
  26. 第1の参照データ配列が発現ベクターであり、第2の参照データ配列がアダプターである、請求項23に記載の分析システム。
  27. 第1および第2の参照データ配列が、プライマーおよびアダプターからなる群から独立に選択される、請求項23に記載の分析システム。
  28. 導入遺伝子隣接配列と、左クローニングベクター、発現ベクター、プライマー、アダプター、および右クローニングベクターの少なくとも1つとを可視化するためのモジュールをさらに含む、請求項20に記載の分析システム。
  29. ゲノム内の1つまたは複数の挿入部位を可視化するためのモジュールをさらに含む、請求項20に記載の分析システム。
  30. 前記計算モジュールが、挿入部位の上流および下流のゲノムの配列情報を特徴付けるようにさらに作動可能である、請求項20に記載の分析システム。
  31. 前記計算モジュールが、挿入部位の10キロ塩基対上流および10キロ塩基対下流のゲノムの配列情報を特徴付けるように作動可能である、請求項30に記載の分析システム。
  32. 前記計算モジュールが、
    配列データを参照データ配列の1つまたは複数と整列させ、
    整列された配列の定性分析を行う、
    ように作動可能である、請求項20に記載の分析システム。
  33. 前記計算モジュールが、
    配列データを参照データ配列の1つまたは複数と整列させ、
    整列された配列の定量分析を行う、
    ように作動可能である、請求項20に記載の分析システム。
  34. ゲノムが、植物ゲノムの少なくとも一部である、請求項20に記載の分析システム。
  35. 参照データ配列の少なくとも1つと配列データを関連付けることが、配列データに対して参照データ配列の少なくとも1つをマッチさせるアルゴリズムを使用することを含む、請求項20に記載の分析システム。
  36. アルゴリズムがLASTZアルゴリズムである、請求項35に記載の分析システム。
  37. ゲノム内の導入遺伝子隣接配列の1つまたは複数の挿入部位を検索することが、少なくとも1つの挿入部位の上流および下流の配列をゲノムとともに特定するアルゴリズムを使用することを含む、請求項20に記載の分析システム。
  38. アルゴリズムがBLASTアルゴリズムである、請求項37に記載の分析システム。
JP2014556652A 2012-02-08 2013-02-07 Dna配列のデータ分析 Active JP6314091B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261596540P 2012-02-08 2012-02-08
US61/596,540 2012-02-08
US201261601090P 2012-02-21 2012-02-21
US61/601,090 2012-02-21
PCT/US2013/025087 WO2013119770A1 (en) 2012-02-08 2013-02-07 Data analysis of dna sequences

Publications (2)

Publication Number Publication Date
JP2015509623A true JP2015509623A (ja) 2015-03-30
JP6314091B2 JP6314091B2 (ja) 2018-04-18

Family

ID=48946332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014556652A Active JP6314091B2 (ja) 2012-02-08 2013-02-07 Dna配列のデータ分析

Country Status (14)

Country Link
US (1) US20130211729A1 (ja)
EP (1) EP2812831A4 (ja)
JP (1) JP6314091B2 (ja)
KR (1) KR20140119723A (ja)
CN (1) CN104272311B (ja)
AR (1) AR089934A1 (ja)
AU (1) AU2013217079B2 (ja)
BR (1) BR112014019047A2 (ja)
CA (1) CA2863524A1 (ja)
HK (1) HK1201951A1 (ja)
IL (1) IL233819A0 (ja)
IN (1) IN2014DN05963A (ja)
TW (1) TWI596493B (ja)
WO (1) WO2013119770A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10233465B2 (en) 2013-11-04 2019-03-19 Dow Agrosciences Llc Optimal soybean loci
BR102014027466B1 (pt) * 2013-11-04 2022-09-27 Dow Agrosciences Llc Molécula de ácido nucleico recombinante, método para produzir uma célula vegetal transgênica e usos de uma planta de soja, parte de planta de soja ou célula de planta de soja transgênica
AU2014341927B2 (en) 2013-11-04 2017-12-14 Corteva Agriscience Llc Optimal maize loci
MX364662B (es) 2013-11-04 2019-05-03 Dow Agrosciences Llc Óptimos loci de maíz.
CN103824001A (zh) * 2014-02-27 2014-05-28 北京诺禾致源生物信息科技有限公司 染色体的检测方法和装置
US9600599B2 (en) * 2014-05-13 2017-03-21 Spiral Genetics, Inc. Prefix burrows-wheeler transformation with fast operations on compressed data
TWI571763B (zh) * 2014-12-01 2017-02-21 財團法人資訊工業策進會 次世代定序分析系統及其次世代定序分析方法
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
KR101881838B1 (ko) * 2015-06-24 2018-07-25 사회복지법인 삼성생명공익재단 유전자의 전좌를 분석하는 방법 및 장치
US10633703B2 (en) 2015-11-10 2020-04-28 Dow Agrosciences Llc Methods and systems for predicting the risk of transgene silencing
TWI582631B (zh) * 2015-11-20 2017-05-11 財團法人資訊工業策進會 用以分析細菌菌種之定序資料的系統及其方法
WO2017101112A1 (zh) * 2015-12-18 2017-06-22 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
EP3459115A4 (en) 2016-05-16 2020-04-08 Agilome, Inc. GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS
TWI629607B (zh) * 2017-08-15 2018-07-11 極諾生技股份有限公司 建立腸道菌數據庫的方法和相關檢測系統
US10649982B2 (en) * 2017-11-09 2020-05-12 Fry Laboratories, LLC Automated database updating and curation
US20230030373A1 (en) * 2019-12-23 2023-02-02 Cold Spring Harbor Laboratory Mixseq: mixture sequencing using compressed sensing for in-situ and in-vitro applications
KR102322308B1 (ko) 2020-03-27 2021-11-05 주식회사 클리노믹스 일부 오믹스 정보를 활용하여 전체 오믹스 정보로 확대 생산하는 장치 및 방법
CN111613272B (zh) * 2020-05-21 2023-10-13 西湖大学 程序化框架gRNA及其应用
CN113724783B (zh) * 2021-06-16 2022-04-12 北京阅微基因技术股份有限公司 一种短串联重复序列重复数的检测和分型方法
US20230051863A1 (en) * 2021-08-10 2023-02-16 Micron Technology, Inc. Memory device for wafer-on-wafer formed memory and logic
CN116343923B (zh) * 2023-03-21 2023-12-08 哈尔滨工业大学 一种基因组结构变异同源性识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139254A (ja) * 2002-10-16 2004-05-13 Nec Soft Ltd 近傍遺伝子情報検索装置及び方法
JP2006252541A (ja) * 2005-02-10 2006-09-21 Institute Of Physical & Chemical Research アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体
JP2008514233A (ja) * 2004-09-29 2008-05-08 パイオニア ハイ−ブレッド インターナショナル, インコーポレイテッド トウモロコシイベントdas−59122−7およびその検出のための方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030204317A1 (en) * 2002-04-26 2003-10-30 Affymetrix, Inc. Methods, systems and software for displaying genomic sequence and annotations
US20040241657A1 (en) * 2003-05-28 2004-12-02 Perlegen Sciences, Inc. Liver related disease compositions and methods
GB2413796B (en) * 2004-03-25 2006-03-29 Global Genomics Ab Methods and means for nucleic acid sequencing
US8592211B2 (en) * 2009-03-20 2013-11-26 The Rockefeller University Enhanced PiggyBac transposon and methods for transposon mutagenesis
EP2411537A2 (en) * 2009-03-24 2012-02-01 Yeda Research and Development Co. Ltd. Methods of predicting pairability and secondary structures of rna molecules

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139254A (ja) * 2002-10-16 2004-05-13 Nec Soft Ltd 近傍遺伝子情報検索装置及び方法
JP2008514233A (ja) * 2004-09-29 2008-05-08 パイオニア ハイ−ブレッド インターナショナル, インコーポレイテッド トウモロコシイベントdas−59122−7およびその検出のための方法
JP2006252541A (ja) * 2005-02-10 2006-09-21 Institute Of Physical & Chemical Research アノテーション方法、アノテーションシステム、プログラムおよびコンピューター読み取り可能な記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AN, S.: "Generation and Analysis of End Sequence Database for T-DNA Tagging Lines in Rice", PLANT PHYSIOLOGY, vol. p.2040-2047, JPN6016045476, December 2003 (2003-12-01), ISSN: 0003724728 *
SALLAUD, C.: "High throughput T-DNA insertion mutagenesis in rice: a first step towards in sillico reverse genetic", THE PLANT JOURNAL, vol. 39, no. 3, JPN6016045474, August 2004 (2004-08-01), pages 450 - 464, ISSN: 0003447506 *
VAN ENCKEVORT, L.J.: "EU-OSTID: a collection of transposon insertional mutants for functional genomics in rice", PLANT MOLECULAR BIOLOGY, vol. Vo.59, No.1, JPN6016045475, September 2005 (2005-09-01), pages 99 - 110, ISSN: 0003724727 *

Also Published As

Publication number Publication date
CN104272311A (zh) 2015-01-07
KR20140119723A (ko) 2014-10-10
AR089934A1 (es) 2014-10-01
JP6314091B2 (ja) 2018-04-18
WO2013119770A1 (en) 2013-08-15
AU2013217079A1 (en) 2014-08-07
CN104272311B (zh) 2018-08-28
US20130211729A1 (en) 2013-08-15
IN2014DN05963A (ja) 2015-06-26
BR112014019047A2 (pt) 2017-06-27
EP2812831A1 (en) 2014-12-17
TWI596493B (zh) 2017-08-21
CA2863524A1 (en) 2013-08-15
TW201337618A (zh) 2013-09-16
IL233819A0 (en) 2014-09-30
HK1201951A1 (en) 2015-09-11
AU2013217079B2 (en) 2018-04-19
EP2812831A4 (en) 2015-11-18

Similar Documents

Publication Publication Date Title
JP6314091B2 (ja) Dna配列のデータ分析
US11149308B2 (en) Sequence assembly
US20210057045A1 (en) Determining the Clinical Significance of Variant Sequences
EP3359695B1 (en) Methods and applications of gene fusion detection in cell-free dna analysis
US10127351B2 (en) Accurate and fast mapping of reads to genome
Babarinde et al. Computational methods for mapping, assembly and quantification for coding and non-coding transcripts
US20230416812A1 (en) Method capable of making one cluster by connecting information of strands generated during pcr process and tracking generation order of generated strands
WO2017136720A1 (en) Variant detection of sequencing assays
Shtratnikova et al. Genome Sequencing of Steroid-Producing Bacteria with Illumina Technology
Clarke Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180123

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180326

R150 Certificate of patent or registration of utility model

Ref document number: 6314091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150